[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111653275A - 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 - Google Patents

基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 Download PDF

Info

Publication number
CN111653275A
CN111653275A CN202010253075.6A CN202010253075A CN111653275A CN 111653275 A CN111653275 A CN 111653275A CN 202010253075 A CN202010253075 A CN 202010253075A CN 111653275 A CN111653275 A CN 111653275A
Authority
CN
China
Prior art keywords
model
output
input
sequence
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010253075.6A
Other languages
English (en)
Other versions
CN111653275B (zh
Inventor
高戈
曾邦
杨玉红
陈怡�
尹文兵
王霄
方依云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202010253075.6A priority Critical patent/CN111653275B/zh
Publication of CN111653275A publication Critical patent/CN111653275A/zh
Application granted granted Critical
Publication of CN111653275B publication Critical patent/CN111653275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于LSTM‑CTC尾部卷积的语音识别模型的构建方法及装置、语音识别方法,通过用一个全卷积层来替换BiLSTM层与softmax层之间的全连接层,以达到网络训练加速的效果。其中,LSTM用于训练语音识别模型,CTC作为损失函数,卷积层用于并行化原全连接层需同时进行的计算。基于卷积层的LSTM‑CTC网络利用卷积核并行计算的特点,使得原本的全连接层的计算不需要同时输入到内存中,从而加速网络的优化。与现有技术相比,本发明加快了语音模型的训练,减少了开发者的时间成本,在一定程度上降低了硬件的需求标准。

Description

基于LSTM-CTC尾部卷积的语音识别模型的构建方法及装置、 语音识别方法
技术领域
本发明涉及语音识别领域,具体涉及基于LSTM-CTC尾部卷积的语音识别 模型的构建方法及装置、语音识别方法。
背景技术
语音识别技术是让机器通过识别和理解过程把语音信号转变为相应的文本 或命令的技术。近年来,随着人工智能能技术的大热,语音识别技术也被迅速发 展,语音识别模型经过数次更新和优化,比较典型的模型有隐马尔科夫模型 (Hidden Markov Model,HMM)、深度神经网络(Deep Neural Networks,DNN)、 循环神经网络(Recurrent NeuralNetwork,RNN)、长短时记忆网络(Long Short Term Memory,LSTM)。
其中,以CTC为损失函数的长短时记忆网络(Long Short Term MemoryConnectionist Temporal Classification,LSTM-CTC)由于其易于训练,解码高效, 性能良好的特性而被广泛应用于语音识别。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下 技术问题:
虽然LSTM-CTC拥有很多的优点,但是由于LSTM时序性特点,使得LSTM 在网络训练时因为难以并行化而非常耗时,也在一定程度上提高了机器的硬件需 求。
由此可知,现有技术的方法中模型训练时间长的技术问题。
发明内容
本发明提出基于LSTM-CTC尾部卷积的语音识别模型的构建方法及装置、 语音识别方法,用于解决或者至少部分解决现有技术的方法中模型训练时间长的 技术问题。
为了解决上述技术问题,本发明第一方面提供了基于LSTM-CTC尾部卷积 的语音识别模型的构建方法,包括:
S1:获取训练数据;
S2:构建神经网络模型,其中,神经网络模型包括两个LSTM层、全卷积 层以及Softmax层,其中,LSTM层用以提取出与输入特征序列长度相同的隐藏 状态序列,全卷积层用以对输入的隐藏状态序列进行降秩、分类,Softmax层用 以对全卷积层的输出进行映射,得到类别预测;
S3:将获取的训练数据输入神经网络模型,并采用CTC损失函数训练神经 网络模型,根据CTC损失函数判断模型是否最优,当最优时停止训练,得到训 练好的模型,作为语音识别模型。
在一种实施方式中,S1具体包括:
将从语音数据中提取的FBank特征作为训练数据。
在一种实施方式中,S3具体包括:
S3.1:计算前向传播变量α(t,u),α(t,u)为所有输出长度为t,经过映射之 后为序列l的路径的概率之和,如下:
Figure BDA0002436198510000021
其中
Figure BDA0002436198510000022
u表示序列长度,
Figure BDA0002436198510000023
表示t时刻输 出为空格字符的概率,l’u表示第t时间步输出的标签;
S3.2:计算反向传播向量β(t,u),β(t,u)为从t+1时刻开始在前向变量α(t,u) 上添加路径π',使得最后通过映射以后为序列l的概率之和,如下
Figure BDA0002436198510000024
其中
Figure BDA0002436198510000025
u表示序列长度,
Figure BDA0002436198510000026
表示t+1时刻 输出为空格字符的概率,l’u表示第t时间步输出的标签;
S3.3:根据前向传播变量和反向传播变量获得CTC损失函数L(x,z),如下:
Figure BDA0002436198510000027
S3.4:采用随机梯度下降算法对模型进行训练,计算损失函数的梯度,其中, 损失函数关于网络输出为:
Figure BDA0002436198510000031
其中B(z,k)为 标签k出现在序列z'的所有路径的集合,
Figure BDA0002436198510000032
表示t时刻输出的字符,
Figure BDA0002436198510000033
p(z|x)表示对于标签z其关于输入x的后验概 率,x表示训练数据,z表示语音对应的文本信息,即标签;
S3.5:根据损失函数的输出判断模型是否达到最优,当达到最优时停止训练, 得到训练好的模型。
基于同样的发明构思,本发明第二方面提供了基于LSTM-CTC尾部卷积的 语音识别模型的构建装置,包括:
训练数据获取模块,用于获取训练数据;
模型构建模块,用于构建神经网络模型,其中,神经网络模型包括两个LSTM 层、全卷积层以及Softmax层,其中,LSTM层用以提取出与输入特征序列长度 相同的隐藏状态序列,全卷积层用以对输入的隐藏状态序列进行降秩、分类, Softmax层用以对全卷积层的输出进行映射,得到类别预测;
模型训练模块,用于将获取的训练数据输入神经网络模型,并采用CTC损 失函数训练神经网络模型,根据CTC损失函数判断模型是否最优,当最优时停 止训练,得到训练好的模型,作为语音识别模型。
基于同样的发明构思,本发明第三方面提供了一种语音识别方法,包括:
将待识别的语音数据进行特征提取后输入第一方面所构建的语音识别模型 中,得到语音识别结果。
在一种实施方式中,语音识别模型的识别过程包括:
S1:通过LSTM层提取出与输入特征序列长度相同的隐藏状态序列;
S2:通过全卷积层用以对输入的隐藏状态序列进行降秩、分类;
S3:通过Softmax层对全卷积层的输出进行映射,得到类别预测。
在一种实施方式中,LSTM层包括时刻的输入词Xt,细胞状态Ct,临时细 胞状态
Figure BDA0002436198510000041
隐藏状态ht,遗忘门ft,输入门it,输出门ot,通过LSTM层提取 出与输入特征序列长度相同的隐藏状态序列,包括:
S1.1:计算遗忘门,选择要遗忘的信息:ft=σ(Wf·[ht-1,xt]+bf)
其中,输入为前一时刻隐藏状态ht-1和当前时刻的输入词xt,输出为ft,Wf、 bf分别为遗忘门的权值矩阵和偏置;
S1.2:计算输入门,选择要记忆的信息:
it=σ(Wi·[ht-1,xt]+bi)
Figure BDA0002436198510000042
其中,输入为前一时刻隐藏状态ht-1和当前时刻的输入词xt,输出为记忆门 的值it和临时细胞状态
Figure BDA0002436198510000043
Wi、bi分别为输入门的权值矩阵和偏置,WC、bC分 别为输出门的权值矩阵和偏置;
S1.3:计算当前时刻细胞状态:
Figure BDA0002436198510000044
其中输入为记忆门的值it、遗忘门的值ft、临时细胞状态
Figure BDA0002436198510000045
和上一刻细胞状 态Ct-1,输出为当前时刻细胞状态Ct
S1.4:计算输出门和当前时刻隐藏状态
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中,输入为前一时刻的隐藏状态ht-1、当前时刻的输入词xt和当前时刻细 胞状态Ct,输出为输出门的值ot和隐藏状态ht
S1.5:最后计算得到与输入的特征序列长度相同的隐藏状态序列 {h0,h1,...,hn-1}。
在一种实施方式中,S3具体包括:将全卷积层输出的特征表征为不同类别 之间的相对概率,得到最终的类别预测,
Figure BDA0002436198510000046
其中,i表示第i个类别,N表示类别总数,Vi表示第i个类别的概率值,Si表示经softmax处理之后第i个类别的概率值。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术 效果:
本发明提供的一种基于LSTM-CTC尾部卷积的语音识别模型的构建方法, 构建的神经网络模型包括两个LSTM层、全卷积层以及Softmax层,采用全卷积 层替换现有传统方案中LSTM层和softmax层之间的全连接层,与现有的全连接 层相比,卷积层中由卷积核来进行计算,卷积核的计算是并行的,因此可以减少 模型的训练时间。
基于以上构建的语音识别模型,本发明还提供了一种基于该模型的语音识别 方法,从而可以提高语音识别效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例 或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的 附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳 动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于LSTM-CTC尾部卷积的语音识别模型的构建 方法的实现流程示意图;
图2为本发明实施例提供的LSTM-CTC的模型的流程图;
图3是本发明基于LSTM-CTC尾部卷积的语音识别模型的构建装置的结构 框图;
图4为利用本发明的语音识别模型进行语音识别的工作流程图。
具体实施方式
本申请发明人通过大量的研究与实践发现:基于先验知识,长短时记忆网络 在backprop(反向传播)时三个门(gate)以及memory cell(记忆细胞)都依赖 于上一个时间点的预测,因此是无法并行的。这就使得LSTM在训练时非常耗 时,且由于LSTM的时序性特征,并行化LSTM网络十分困难。基于此,本发 明旨在通过修改LSTM-CTC的网络结构,减少语音识别模型的训练时间。
为了实现上述目的,本发明的主要构思如下:
本发明提出了基于LSTM-CTC(Long Short Term Memory ConnectionistTemporal Classification)尾部卷积的语音识别模型的构建方法,通过用一个全卷 积层来替换BiLSTM层与softmax层之间的全连接层,以达到网络训练加速的效 果。其中,LSTM用于训练语音识别模型,CTC作为损失函数,卷积层用于并 行化原全连接层需同时进行的计算。基于卷积层的LSTM-CTC网络利用卷积核 并行计算的特点,使得原本的全连接层的计算不需要同时输入到内存中,从而加 速网络的优化。与现有技术相比,本发明加快了语音模型的训练,减少了开发者 的时间成本,在一定程度上降低了硬件的需求标准。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实 施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所 描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实 施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。
实施例一
本实施例提供了一种基于LSTM-CTC尾部卷积的语音识别模型的构建方法, 请参见图1,该方法包括:
S1:获取训练数据;
S2:构建神经网络模型,其中,神经网络模型包括两个LSTM层、全卷积 层以及Softmax层,其中,LSTM层用以提取出与输入特征序列长度相同的隐藏 状态序列,全卷积层用以对输入的隐藏状态序列进行降秩、分类,Softmax层用 以对全卷积层的输出进行映射,得到类别预测;
S3:将获取的训练数据输入神经网络模型,并采用CTC损失函数训练神经 网络模型,根据CTC损失函数判断模型是否最优,当最优时停止训练,得到训 练好的模型,作为语音识别模型。
具体来说,S1中的训练数据可以通过语音识别获取。
S2中是构建神经网络模型框架,本发明创新性地将LSTM层与softmax层 之间的全连接层替换为卷积层,通过卷积层的并行计算,从而提高模型训练的效 率。
S3中CTC(Connectionist Temporal Classification)可以直接使用序列进行训练。 CTC引入了一个新的损失函数,可以直接使用未切分的序列记性训练。
在一种实施方式中,S1具体包括:
将从语音数据中提取的FBank特征作为训练数据。
具体来说,可以通过通过音频输入设备获取语音数据,然后通过音频前端处 理获取音频的FBank特征。
在一种实施方式中,S3具体包括:
S3.1:计算前向传播变量α(t,u),α(t,u)为所有输出长度为t,经过映射之 后为序列l的路径的概率之和,如下:
Figure BDA0002436198510000071
其中
Figure BDA0002436198510000072
u表示序列长度,
Figure BDA0002436198510000073
表示t时刻输 出为空格字符的概率,l’u表示第t时间步输出的标签;
S3.2:计算反向传播向量β(t,u),β(t,u)为从t+1时刻开始在前向变量α(t,u) 上添加路径π',使得最后通过映射以后为序列l的概率之和,如下
Figure BDA0002436198510000074
其中
Figure BDA0002436198510000075
u表示序列长度,
Figure BDA0002436198510000076
表示t+1时刻 输出为空格字符的概率,l’u表示第t时间步输出的标签;
S3.3:根据前向传播变量和反向传播变量获得CTC损失函数L(x,z),如下:
Figure BDA0002436198510000077
S3.4:采用随机梯度下降算法对模型进行训练,计算损失函数的梯度,其中, 损失函数关于网络输出为:
Figure BDA0002436198510000078
其中B(z,k)为 标签k出现在序列z'的所有路径的集合,
Figure BDA0002436198510000081
表示t时刻输出的字符,
Figure BDA0002436198510000082
p(z|x)表示对于标签z其关于输入x的后验概 率,x表示训练数据,z表示语音对应的文本信息,即标签;
S3.5:根据损失函数的输出判断模型是否达到最优,当达到最优时停止训练, 得到训练好的模型。
具体来说,以CTC作为损失函数,采用随机梯度下降算法(Stochastic gradientdescent,SGD)来训练网络,通过损失函数来衡量模型是否“最优”,如果“最 优”,则停止训练,若不是,则需配合随机梯度下降算法来指导网络的下一步训 练和优化。
请参见图2,为语音识别的模型的流程图,首先输入训练数据,然后构建网 络结果:两层LSTM(LSTM1和LSTM2)、全卷积层和Softmax层,在确定模 型的结构后,采用CTC损失函数对模型进行训练,最后得到语音识别模型。
与现有技术相比,本发明具有以下优点和有益效果:节约网络训练的时间成 本,一定程度上降低网络训练的硬件需求。
实施例二
基于同样的发明构思,本实施例提供了一种基于LSTM-CTC尾部卷积的语 音识别模型的构建装置,请参见图3,该装置包括:
训练数据获取模块201,用于获取训练数据;
模型构建模块202,用于构建神经网络模型,其中,神经网络模型包括两个 LSTM层、全卷积层以及Softmax层,其中,LSTM层用以提取出与输入特征序 列长度相同的隐藏状态序列,全卷积层用以对输入的隐藏状态序列降秩、分类, Softmax层用以对全卷积层的输出进行映射,得到类别预测;
模型训练模块203,用于将获取的训练数据输入神经网络模型,并采用CTC 损失函数训练神经网络模型,根据CTC损失函数判断模型是否最优,当最优时 停止训练,得到训练好的模型,作为语音识别模型。
由于本发明实施例二所介绍的装置,为实施本发明实施例一中基于 LSTM-CTC尾部卷积的语音识别模型的构建方法所采用的装置,故而基于本发 明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形, 故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲 保护的范围。
实施例三
基于同样的发明构思,本实施例提供了一种语音识别方法,包括:
将待识别的语音数据进行特征提取后输入实施例一构建的语音识别模型中, 得到语音识别结果。
在一种实施方式中,语音识别模型的识别过程包括:
S1:通过LSTM层提取出与输入特征序列长度相同的隐藏状态序列;
S2:通过全卷积层用以对输入的隐藏状态序列进行降秩、分类;
S3:通过Softmax层对全卷积层的输出进行映射,得到类别预测。
在一种实施方式中,LSTM层包括时刻的输入词Xt,细胞状态Ct,临时细 胞状态
Figure BDA0002436198510000091
隐藏状态ht,遗忘门ft,输入门it,输出门ot,通过LSTM层提取 出与输入特征序列长度相同的隐藏状态序列,包括:
S1.1:计算遗忘门,选择要遗忘的信息:ft=σ(Wf·[ht-1,xt]+bf)
其中,输入为前一时刻隐藏状态ht-1和当前时刻的输入词xt,输出为ft,Wf、 bf分别为遗忘门的权值矩阵和偏置;
S1.2:计算输入门,选择要记忆的信息:
it=σ(Wi·[ht-1,xt]+bi)
Figure BDA0002436198510000092
其中,输入为前一时刻隐藏状态ht-1和当前时刻的输入词xt,输出为记忆门 的值it和临时细胞状态
Figure BDA0002436198510000093
Wi、bi分别为输入门的权值矩阵和偏置,WC、bC分 别为输出门的权值矩阵和偏置;
S1.3:计算当前时刻细胞状态:
Figure BDA0002436198510000094
其中输入为记忆门的值it、遗忘门的值ft、临时细胞状态
Figure BDA0002436198510000095
和上一刻细胞状 态Ct-1,输出为当前时刻细胞状态Ct
S1.4:计算输出门和当前时刻隐藏状态
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中,输入为前一时刻的隐藏状态ht-1、当前时刻的输入词xt和当前时刻细 胞状态Ct,输出为输出门的值ot和隐藏状态ht
S1.5:最后计算得到与输入的特征序列长度相同的隐藏状态序列 {h0,h1,...,hn-1}。
具体来说,S1.1~S1.5详细介绍了LTSM层的实现过程,两层LSTM的作用 是相同的,采用多层LSTM加深网络深度,可以加强网络模型的表达能力,但 是因为梯度消失的问题,所以选择用两层LSTM来训练和预测。
在一种实施方式中,S3具体包括:将全卷积层输出的特征表征为不同类别 之间的相对概率,得到最终的类别预测,
Figure BDA0002436198510000101
其中,i表示第i个类别,N表示类别总数,Vi表示第i个类别的概率值,Si表示经softmax处理之后第i个类别的概率值。
请参见图4,为利用语音识别模型进行语音识别的流程图,训练语音中提取 的Fbank特征用于模型的训练,得到的解码模型即最终的语音识别模型,将待识 别的语音或者测试语音输入解码模型得到最终的识别结果,即识别文本。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算 机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软 件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计 算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、 光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品 的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或 方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框 的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机 或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可 编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本 创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意 欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离 本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本 发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在 内。

Claims (8)

1.基于LSTM-CTC尾部卷积的语音识别模型的构建方法,其特征在于,包括:
S1:获取训练数据;
S2:构建神经网络模型,其中,神经网络模型包括两个LSTM层、全卷积层以及Softmax层,其中,LSTM层用以提取出与输入特征序列长度相同的隐藏状态序列,全卷积层用以对输入的隐藏状态序列进行降秩、分类,Softmax层用以对全卷积层的输出进行映射,得到类别预测;
S3:将获取的训练数据输入神经网络模型,并采用CTC损失函数训练神经网络模型,根据CTC损失函数判断模型是否最优,当最优时停止训练,得到训练好的模型,作为语音识别模型。
2.如权利要求1所述的方法,其特征在于,S1具体包括:
将从语音数据中提取的FBank特征作为训练数据。
3.如权利要求1所述的方法,其特征在于,S3具体包括:
S3.1:计算前向传播变量α(t,u),α(t,u)为所有输出长度为t,经过映射之后为序列l的路径的概率之和,如下:
Figure FDA0002436198500000011
其中
Figure FDA0002436198500000012
u表示序列长度,
Figure FDA0002436198500000013
表示t时刻输出为空格字符的概率,l′u表示第t时间步输出的标签;
S3.2:计算反向传播向量β(t,u),β(t,u)为从t+1时刻开始在前向变量α(t,u)上添加路径π',使得最后通过映射以后为序列l的概率之和,如下
Figure FDA0002436198500000014
其中
Figure FDA0002436198500000015
u表示序列长度,
Figure FDA0002436198500000016
表示t+1时刻输出为空格字符的概率,l′u表示第t时间步输出的标签;
S3.3:根据前向传播变量和反向传播变量获得CTC损失函数L(x,z),如下:
Figure FDA0002436198500000021
S3.4:采用随机梯度下降算法对模型进行训练,计算损失函数的梯度,其中,损失函数关于网络输出为:
Figure FDA0002436198500000022
其中B(z,k)为标签k出现在序列z'的所有路径的集合,
Figure FDA0002436198500000023
表示t时刻输出的字符,
Figure FDA0002436198500000024
p(z|x)表示对于标签z其关于输入x的后验概率,x表示训练数据,z表示语音对应的文本信息,即标签;
S3.5:根据损失函数的输出判断模型是否达到最优,当达到最优时停止训练,得到训练好的模型。
4.基于LSTM-CTC尾部卷积的语音识别模型的构建装置,其特征在于,包括:
训练数据获取模块,用于获取训练数据;
模型构建模块,用于构建神经网络模型,其中,神经网络模型包括两个LSTM层、全卷积层以及Softmax层,其中,LSTM层用以提取出与输入特征序列长度相同的隐藏状态序列,全卷积层用以对输入的隐藏状态序列进行降秩、分类,Softmax层用以对全卷积层的输出进行映射,得到类别预测;
模型训练模块,用于将获取的训练数据输入神经网络模型,并采用CTC损失函数训练神经网络模型,根据CTC损失函数判断模型是否最优,当最优时停止训练,得到训练好的模型,作为语音识别模型。
5.一种语音识别方法,其特征在于,包括:
将待识别的语音数据进行特征提取后输入如权利要求1至3任一项权利要求所述的语音识别模型中,得到语音识别结果。
6.如权利要求5所述的方法,其特征在于,语音识别模型的识别过程包括:
S1:通过LSTM层提取出与输入特征序列长度相同的隐藏状态序列;
S2:通过全卷积层用以对输入的隐藏状态序列进行降秩、分类;
S3:通过Softmax层对全卷积层的输出进行映射,得到类别预测。
7.如权利要求6所述的方法,其特征在于,LSTM层包括时刻的输入词Xt,细胞状态Ct,临时细胞状态
Figure RE-FDA0002593243550000036
隐藏状态ht,遗忘门ft,输入门it,输出门ot,通过LSTM层提取出与输入特征序列长度相同的隐藏状态序列,包括:
S1.1:计算遗忘门,选择要遗忘的信息:ft=σ(Wf·[ht-1,xt]+bf)
其中,输入为前一时刻隐藏状态ht-1和当前时刻的输入词xt,输出为ft,Wf、bf分别为遗忘门的权值矩阵和偏置;
S1.2:计算输入门,选择要记忆的信息:
it=σ(Wi·[ht-1,xt]+bi)
Figure RE-FDA0002593243550000031
其中,输入为前一时刻隐藏状态ht-1和当前时刻的输入词xt,输出为记忆门的值it和临时细胞状态
Figure RE-FDA0002593243550000032
Wi、bi分别为输入门的权值矩阵和偏置,WC、bC分别为输出门的权值矩阵和偏置;
S1.3:计算当前时刻细胞状态:
Figure RE-FDA0002593243550000033
其中输入为记忆门的值it、遗忘门的值ft、临时细胞状态
Figure RE-FDA0002593243550000034
和上一刻细胞状态Ct-1,输出为当前时刻细胞状态Ct
S1.4:计算输出门和当前时刻隐藏状态
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中,输入为前一时刻的隐藏状态ht-1、当前时刻的输入词xt和当前时刻细胞状态Ct,输出为输出门的值ot和隐藏状态ht
S1.5:最后计算得到与输入的特征序列长度相同的隐藏状态序列{h0,h1,...,hn-1}。
8.如权利要求6所述的方法,其特征在于,S3具体包括:将全卷积层输出的特征表征为不同类别之间的相对概率,得到最终的类别预测,
Figure FDA0002436198500000036
其中,i表示第i个类别,N表示类别总数,Vi表示第i个类别的概率值,Si表示经softmax处理之后第i个类别的概率值。
CN202010253075.6A 2020-04-02 2020-04-02 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 Active CN111653275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010253075.6A CN111653275B (zh) 2020-04-02 2020-04-02 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010253075.6A CN111653275B (zh) 2020-04-02 2020-04-02 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法

Publications (2)

Publication Number Publication Date
CN111653275A true CN111653275A (zh) 2020-09-11
CN111653275B CN111653275B (zh) 2022-06-03

Family

ID=72352085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010253075.6A Active CN111653275B (zh) 2020-04-02 2020-04-02 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法

Country Status (1)

Country Link
CN (1) CN111653275B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233655A (zh) * 2020-09-28 2021-01-15 上海声瀚信息科技有限公司 一种提高语音命令词识别性能的神经网络训练方法
CN112235470A (zh) * 2020-09-16 2021-01-15 重庆锐云科技有限公司 基于语音识别的来电客户跟进方法、装置及设备
CN112802491A (zh) * 2021-02-07 2021-05-14 武汉大学 一种基于时频域生成对抗网络的语音增强方法
CN113192489A (zh) * 2021-05-16 2021-07-30 金陵科技学院 一种基于多尺度增强BiLSTM模型的喷漆机器人语音识别方法
CN113808581A (zh) * 2021-08-17 2021-12-17 山东大学 一种声学和语言模型训练及联合优化的中文语音识别方法
CN115563508A (zh) * 2022-11-08 2023-01-03 北京百度网讯科技有限公司 模型训练方法、装置以及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130578A1 (en) * 2017-10-27 2019-05-02 Siemens Healthcare Gmbh Vascular segmentation using fully convolutional and recurrent neural networks
CN109710922A (zh) * 2018-12-06 2019-05-03 深港产学研基地产业发展中心 文本识别方法、装置、计算机设备和存储介质
US20190180188A1 (en) * 2017-12-13 2019-06-13 Cognizant Technology Solutions U.S. Corporation Evolution of Architectures For Multitask Neural Networks
US20190341052A1 (en) * 2018-05-02 2019-11-07 Simon Says, Inc. Machine Learning-Based Speech-To-Text Transcription Cloud Intermediary
CN110633646A (zh) * 2019-08-21 2019-12-31 数字广东网络建设有限公司 图像敏感信息检测的方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130578A1 (en) * 2017-10-27 2019-05-02 Siemens Healthcare Gmbh Vascular segmentation using fully convolutional and recurrent neural networks
US20190180188A1 (en) * 2017-12-13 2019-06-13 Cognizant Technology Solutions U.S. Corporation Evolution of Architectures For Multitask Neural Networks
US20190341052A1 (en) * 2018-05-02 2019-11-07 Simon Says, Inc. Machine Learning-Based Speech-To-Text Transcription Cloud Intermediary
CN109710922A (zh) * 2018-12-06 2019-05-03 深港产学研基地产业发展中心 文本识别方法、装置、计算机设备和存储介质
CN110633646A (zh) * 2019-08-21 2019-12-31 数字广东网络建设有限公司 图像敏感信息检测的方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴邦誉等: "采用拼音降维的中文对话模型", 《中文信息学报》, no. 05, 15 May 2019 (2019-05-15) *
杨艳芳等: "基于深度卷积长短时记忆网络的加速度手势识别", 《电子测量技术》, no. 21, 8 November 2019 (2019-11-08) *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112235470A (zh) * 2020-09-16 2021-01-15 重庆锐云科技有限公司 基于语音识别的来电客户跟进方法、装置及设备
CN112233655A (zh) * 2020-09-28 2021-01-15 上海声瀚信息科技有限公司 一种提高语音命令词识别性能的神经网络训练方法
CN112802491A (zh) * 2021-02-07 2021-05-14 武汉大学 一种基于时频域生成对抗网络的语音增强方法
CN112802491B (zh) * 2021-02-07 2022-06-14 武汉大学 一种基于时频域生成对抗网络的语音增强方法
CN113192489A (zh) * 2021-05-16 2021-07-30 金陵科技学院 一种基于多尺度增强BiLSTM模型的喷漆机器人语音识别方法
CN113808581A (zh) * 2021-08-17 2021-12-17 山东大学 一种声学和语言模型训练及联合优化的中文语音识别方法
CN113808581B (zh) * 2021-08-17 2024-03-12 山东大学 一种声学和语言模型训练及联合优化的中文语音识别方法
CN115563508A (zh) * 2022-11-08 2023-01-03 北京百度网讯科技有限公司 模型训练方法、装置以及设备

Also Published As

Publication number Publication date
CN111653275B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN111653275B (zh) 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN106098059B (zh) 可定制语音唤醒方法及系统
CN108346436B (zh) 语音情感检测方法、装置、计算机设备及存储介质
CN104143327B (zh) 一种声学模型训练方法和装置
CN111914644A (zh) 一种基于双模态协同的弱监督时序动作定位方法及系统
US11205419B2 (en) Low energy deep-learning networks for generating auditory features for audio processing pipelines
CN111477220B (zh) 一种面向家居口语环境的神经网络语音识别方法及系统
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111563161B (zh) 一种语句识别方法、语句识别装置及智能设备
CN110459207A (zh) 唤醒语音关键短语分割
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN111882042B (zh) 用于液体状态机的神经网络架构自动搜索方法、系统及介质
Regmi et al. Nepali speech recognition using rnn-ctc model
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN115687934A (zh) 意图识别方法、装置、计算机设备及存储介质
CN113870863B (zh) 声纹识别方法及装置、存储介质及电子设备
CN112417890B (zh) 一种基于多样化语义注意力模型的细粒度实体分类方法
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN114333768A (zh) 语音检测方法、装置、设备和存储介质
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
CN115803808A (zh) 合成语音检测
US20240046921A1 (en) Method, apparatus, electronic device, and medium for speech processing
CN114357160B (zh) 基于生成传播结构特征的早期谣言检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant