CN111653275A

CN111653275A - 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法

Info

Publication number: CN111653275A
Application number: CN202010253075.6A
Authority: CN
Inventors: 高戈; 曾邦; 杨玉红; 陈怡�; 尹文兵; 王霄; 方依云
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-09-11
Anticipated expiration: 2040-04-02
Also published as: CN111653275B

Abstract

本发明公开了基于LSTM‑CTC尾部卷积的语音识别模型的构建方法及装置、语音识别方法，通过用一个全卷积层来替换BiLSTM层与softmax层之间的全连接层，以达到网络训练加速的效果。其中，LSTM用于训练语音识别模型，CTC作为损失函数，卷积层用于并行化原全连接层需同时进行的计算。基于卷积层的LSTM‑CTC网络利用卷积核并行计算的特点，使得原本的全连接层的计算不需要同时输入到内存中，从而加速网络的优化。与现有技术相比，本发明加快了语音模型的训练，减少了开发者的时间成本，在一定程度上降低了硬件的需求标准。

Description

基于LSTM-CTC尾部卷积的语音识别模型的构建方法及装置、语音识别方法

技术领域

本发明涉及语音识别领域，具体涉及基于LSTM-CTC尾部卷积的语音识别模型的构建方法及装置、语音识别方法。

背景技术

语音识别技术是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。近年来，随着人工智能能技术的大热，语音识别技术也被迅速发展，语音识别模型经过数次更新和优化，比较典型的模型有隐马尔科夫模型 (Hidden Markov Model，HMM)、深度神经网络(Deep Neural Networks，DNN)、循环神经网络(Recurrent NeuralNetwork,RNN)、长短时记忆网络(Long Short Term Memory，LSTM)。

其中，以CTC为损失函数的长短时记忆网络(Long Short Term MemoryConnectionist Temporal Classification，LSTM-CTC)由于其易于训练，解码高效，性能良好的特性而被广泛应用于语音识别。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

虽然LSTM-CTC拥有很多的优点，但是由于LSTM时序性特点，使得LSTM 在网络训练时因为难以并行化而非常耗时，也在一定程度上提高了机器的硬件需求。

由此可知，现有技术的方法中模型训练时间长的技术问题。

发明内容

本发明提出基于LSTM-CTC尾部卷积的语音识别模型的构建方法及装置、语音识别方法，用于解决或者至少部分解决现有技术的方法中模型训练时间长的技术问题。

为了解决上述技术问题，本发明第一方面提供了基于LSTM-CTC尾部卷积的语音识别模型的构建方法，包括：

S1：获取训练数据；

S2：构建神经网络模型，其中，神经网络模型包括两个LSTM层、全卷积层以及Softmax层，其中，LSTM层用以提取出与输入特征序列长度相同的隐藏状态序列，全卷积层用以对输入的隐藏状态序列进行降秩、分类，Softmax层用以对全卷积层的输出进行映射，得到类别预测；

S3：将获取的训练数据输入神经网络模型，并采用CTC损失函数训练神经网络模型，根据CTC损失函数判断模型是否最优，当最优时停止训练，得到训练好的模型，作为语音识别模型。

在一种实施方式中，S1具体包括：

将从语音数据中提取的FBank特征作为训练数据。

在一种实施方式中，S3具体包括：

S3.1：计算前向传播变量α(t,u)，α(t,u)为所有输出长度为t，经过映射之后为序列l的路径的概率之和，如下：

其中

u表示序列长度，

表示t时刻输出为空格字符的概率，l’_u表示第t时间步输出的标签；

S3.2：计算反向传播向量β(t,u)，β(t,u)为从t+1时刻开始在前向变量α(t,u) 上添加路径π'，使得最后通过映射以后为序列l的概率之和，如下

其中

u表示序列长度，

表示t+1时刻输出为空格字符的概率，l’_u表示第t时间步输出的标签；

S3.3：根据前向传播变量和反向传播变量获得CTC损失函数L(x,z)，如下：

S3.4：采用随机梯度下降算法对模型进行训练，计算损失函数的梯度，其中，损失函数关于网络输出为：

其中B(z,k)为标签k出现在序列z'的所有路径的集合，

表示t时刻输出的字符，

p(z|x)表示对于标签z其关于输入x的后验概率，x表示训练数据，z表示语音对应的文本信息，即标签；

S3.5：根据损失函数的输出判断模型是否达到最优，当达到最优时停止训练，得到训练好的模型。

基于同样的发明构思，本发明第二方面提供了基于LSTM-CTC尾部卷积的语音识别模型的构建装置，包括：

训练数据获取模块，用于获取训练数据；

模型构建模块，用于构建神经网络模型，其中，神经网络模型包括两个LSTM 层、全卷积层以及Softmax层，其中，LSTM层用以提取出与输入特征序列长度相同的隐藏状态序列，全卷积层用以对输入的隐藏状态序列进行降秩、分类， Softmax层用以对全卷积层的输出进行映射，得到类别预测；

模型训练模块，用于将获取的训练数据输入神经网络模型，并采用CTC损失函数训练神经网络模型，根据CTC损失函数判断模型是否最优，当最优时停止训练，得到训练好的模型，作为语音识别模型。

基于同样的发明构思，本发明第三方面提供了一种语音识别方法，包括：

将待识别的语音数据进行特征提取后输入第一方面所构建的语音识别模型中，得到语音识别结果。

在一种实施方式中，语音识别模型的识别过程包括：

S1：通过LSTM层提取出与输入特征序列长度相同的隐藏状态序列；

S2：通过全卷积层用以对输入的隐藏状态序列进行降秩、分类；

S3：通过Softmax层对全卷积层的输出进行映射，得到类别预测。

在一种实施方式中，LSTM层包括时刻的输入词X_t，细胞状态C_t，临时细胞状态

隐藏状态h_t，遗忘门f_t，输入门i_t，输出门o_t，通过LSTM层提取出与输入特征序列长度相同的隐藏状态序列，包括：

S1.1：计算遗忘门，选择要遗忘的信息：f_t＝σ(W_f·[h_t-1,x_t]+b_f)

其中，输入为前一时刻隐藏状态h_t-1和当前时刻的输入词x_t，输出为f_t，W_f、 b_f分别为遗忘门的权值矩阵和偏置；

S1.2：计算输入门，选择要记忆的信息：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

其中，输入为前一时刻隐藏状态h_t-1和当前时刻的输入词x_t，输出为记忆门的值i_t和临时细胞状态

W_i、b_i分别为输入门的权值矩阵和偏置，W_C、b_C分别为输出门的权值矩阵和偏置；

S1.3：计算当前时刻细胞状态：

其中输入为记忆门的值i_t、遗忘门的值f_t、临时细胞状态

和上一刻细胞状态C_t-1，输出为当前时刻细胞状态C_t；

S1.4：计算输出门和当前时刻隐藏状态

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

其中，输入为前一时刻的隐藏状态h_t-1、当前时刻的输入词x_t和当前时刻细胞状态C_t，输出为输出门的值o_t和隐藏状态h_t；

S1.5：最后计算得到与输入的特征序列长度相同的隐藏状态序列 {h₀,h₁,...,h_n-1}。

在一种实施方式中，S3具体包括：将全卷积层输出的特征表征为不同类别之间的相对概率，得到最终的类别预测，

其中，i表示第i个类别，N表示类别总数，V_i表示第i个类别的概率值，S_i表示经softmax处理之后第i个类别的概率值。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种基于LSTM-CTC尾部卷积的语音识别模型的构建方法，构建的神经网络模型包括两个LSTM层、全卷积层以及Softmax层，采用全卷积层替换现有传统方案中LSTM层和softmax层之间的全连接层，与现有的全连接层相比，卷积层中由卷积核来进行计算，卷积核的计算是并行的，因此可以减少模型的训练时间。

基于以上构建的语音识别模型，本发明还提供了一种基于该模型的语音识别方法，从而可以提高语音识别效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于LSTM-CTC尾部卷积的语音识别模型的构建方法的实现流程示意图；

图2为本发明实施例提供的LSTM-CTC的模型的流程图；

图3是本发明基于LSTM-CTC尾部卷积的语音识别模型的构建装置的结构框图；

图4为利用本发明的语音识别模型进行语音识别的工作流程图。

具体实施方式

本申请发明人通过大量的研究与实践发现：基于先验知识，长短时记忆网络在backprop(反向传播)时三个门(gate)以及memory cell(记忆细胞)都依赖于上一个时间点的预测，因此是无法并行的。这就使得LSTM在训练时非常耗时，且由于LSTM的时序性特征，并行化LSTM网络十分困难。基于此，本发明旨在通过修改LSTM-CTC的网络结构，减少语音识别模型的训练时间。

为了实现上述目的，本发明的主要构思如下：

本发明提出了基于LSTM-CTC(Long Short Term Memory ConnectionistTemporal Classification)尾部卷积的语音识别模型的构建方法，通过用一个全卷积层来替换BiLSTM层与softmax层之间的全连接层，以达到网络训练加速的效果。其中，LSTM用于训练语音识别模型，CTC作为损失函数，卷积层用于并行化原全连接层需同时进行的计算。基于卷积层的LSTM-CTC网络利用卷积核并行计算的特点，使得原本的全连接层的计算不需要同时输入到内存中，从而加速网络的优化。与现有技术相比，本发明加快了语音模型的训练，减少了开发者的时间成本，在一定程度上降低了硬件的需求标准。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种基于LSTM-CTC尾部卷积的语音识别模型的构建方法，请参见图1，该方法包括：

S1：获取训练数据；

具体来说，S1中的训练数据可以通过语音识别获取。

S2中是构建神经网络模型框架，本发明创新性地将LSTM层与softmax层之间的全连接层替换为卷积层，通过卷积层的并行计算，从而提高模型训练的效率。

S3中CTC(Connectionist Temporal Classification)可以直接使用序列进行训练。 CTC引入了一个新的损失函数，可以直接使用未切分的序列记性训练。

在一种实施方式中，S1具体包括：

将从语音数据中提取的FBank特征作为训练数据。

具体来说，可以通过通过音频输入设备获取语音数据，然后通过音频前端处理获取音频的FBank特征。

在一种实施方式中，S3具体包括：

其中

u表示序列长度，

其中

u表示序列长度，

其中B(z,k)为标签k出现在序列z'的所有路径的集合，

表示t时刻输出的字符，

具体来说，以CTC作为损失函数，采用随机梯度下降算法(Stochastic gradientdescent，SGD)来训练网络，通过损失函数来衡量模型是否“最优”，如果“最优”，则停止训练，若不是，则需配合随机梯度下降算法来指导网络的下一步训练和优化。

请参见图2，为语音识别的模型的流程图，首先输入训练数据，然后构建网络结果：两层LSTM(LSTM1和LSTM2)、全卷积层和Softmax层，在确定模型的结构后，采用CTC损失函数对模型进行训练，最后得到语音识别模型。

与现有技术相比，本发明具有以下优点和有益效果：节约网络训练的时间成本，一定程度上降低网络训练的硬件需求。

实施例二

基于同样的发明构思，本实施例提供了一种基于LSTM-CTC尾部卷积的语音识别模型的构建装置，请参见图3，该装置包括：

训练数据获取模块201，用于获取训练数据；

模型构建模块202，用于构建神经网络模型，其中，神经网络模型包括两个 LSTM层、全卷积层以及Softmax层，其中，LSTM层用以提取出与输入特征序列长度相同的隐藏状态序列，全卷积层用以对输入的隐藏状态序列降秩、分类， Softmax层用以对全卷积层的输出进行映射，得到类别预测；

模型训练模块203，用于将获取的训练数据输入神经网络模型，并采用CTC 损失函数训练神经网络模型，根据CTC损失函数判断模型是否最优，当最优时停止训练，得到训练好的模型，作为语音识别模型。

由于本发明实施例二所介绍的装置，为实施本发明实施例一中基于 LSTM-CTC尾部卷积的语音识别模型的构建方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

实施例三

基于同样的发明构思，本实施例提供了一种语音识别方法，包括：

将待识别的语音数据进行特征提取后输入实施例一构建的语音识别模型中，得到语音识别结果。

在一种实施方式中，语音识别模型的识别过程包括：

S1.2：计算输入门，选择要记忆的信息：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

S1.3：计算当前时刻细胞状态：

其中输入为记忆门的值i_t、遗忘门的值f_t、临时细胞状态

和上一刻细胞状态C_t-1，输出为当前时刻细胞状态C_t；

S1.4：计算输出门和当前时刻隐藏状态

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

具体来说，S1.1～S1.5详细介绍了LTSM层的实现过程，两层LSTM的作用是相同的，采用多层LSTM加深网络深度，可以加强网络模型的表达能力，但是因为梯度消失的问题，所以选择用两层LSTM来训练和预测。

请参见图4，为利用语音识别模型进行语音识别的流程图，训练语音中提取的Fbank特征用于模型的训练，得到的解码模型即最终的语音识别模型，将待识别的语音或者测试语音输入解码模型得到最终的识别结果，即识别文本。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。