CN111653275A - 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 - Google Patents
基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 Download PDFInfo
- Publication number
- CN111653275A CN111653275A CN202010253075.6A CN202010253075A CN111653275A CN 111653275 A CN111653275 A CN 111653275A CN 202010253075 A CN202010253075 A CN 202010253075A CN 111653275 A CN111653275 A CN 111653275A
- Authority
- CN
- China
- Prior art keywords
- model
- output
- input
- sequence
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 63
- 230000006870 function Effects 0.000 claims abstract description 33
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 230000015654 memory Effects 0.000 claims abstract description 9
- 238000003062 neural network model Methods 0.000 claims description 26
- 238000013507 mapping Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000001052 transient effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于LSTM‑CTC尾部卷积的语音识别模型的构建方法及装置、语音识别方法,通过用一个全卷积层来替换BiLSTM层与softmax层之间的全连接层,以达到网络训练加速的效果。其中,LSTM用于训练语音识别模型,CTC作为损失函数,卷积层用于并行化原全连接层需同时进行的计算。基于卷积层的LSTM‑CTC网络利用卷积核并行计算的特点,使得原本的全连接层的计算不需要同时输入到内存中,从而加速网络的优化。与现有技术相比,本发明加快了语音模型的训练,减少了开发者的时间成本,在一定程度上降低了硬件的需求标准。
Description
技术领域
本发明涉及语音识别领域,具体涉及基于LSTM-CTC尾部卷积的语音识别 模型的构建方法及装置、语音识别方法。
背景技术
语音识别技术是让机器通过识别和理解过程把语音信号转变为相应的文本 或命令的技术。近年来,随着人工智能能技术的大热,语音识别技术也被迅速发 展,语音识别模型经过数次更新和优化,比较典型的模型有隐马尔科夫模型 (Hidden Markov Model,HMM)、深度神经网络(Deep Neural Networks,DNN)、 循环神经网络(Recurrent NeuralNetwork,RNN)、长短时记忆网络(Long Short Term Memory,LSTM)。
其中,以CTC为损失函数的长短时记忆网络(Long Short Term MemoryConnectionist Temporal Classification,LSTM-CTC)由于其易于训练,解码高效, 性能良好的特性而被广泛应用于语音识别。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下 技术问题:
虽然LSTM-CTC拥有很多的优点,但是由于LSTM时序性特点,使得LSTM 在网络训练时因为难以并行化而非常耗时,也在一定程度上提高了机器的硬件需 求。
由此可知,现有技术的方法中模型训练时间长的技术问题。
发明内容
本发明提出基于LSTM-CTC尾部卷积的语音识别模型的构建方法及装置、 语音识别方法,用于解决或者至少部分解决现有技术的方法中模型训练时间长的 技术问题。
为了解决上述技术问题,本发明第一方面提供了基于LSTM-CTC尾部卷积 的语音识别模型的构建方法,包括:
S1:获取训练数据;
S2:构建神经网络模型,其中,神经网络模型包括两个LSTM层、全卷积 层以及Softmax层,其中,LSTM层用以提取出与输入特征序列长度相同的隐藏 状态序列,全卷积层用以对输入的隐藏状态序列进行降秩、分类,Softmax层用 以对全卷积层的输出进行映射,得到类别预测;
S3:将获取的训练数据输入神经网络模型,并采用CTC损失函数训练神经 网络模型,根据CTC损失函数判断模型是否最优,当最优时停止训练,得到训 练好的模型,作为语音识别模型。
在一种实施方式中,S1具体包括:
将从语音数据中提取的FBank特征作为训练数据。
在一种实施方式中,S3具体包括:
S3.1:计算前向传播变量α(t,u),α(t,u)为所有输出长度为t,经过映射之 后为序列l的路径的概率之和,如下:
S3.2:计算反向传播向量β(t,u),β(t,u)为从t+1时刻开始在前向变量α(t,u) 上添加路径π',使得最后通过映射以后为序列l的概率之和,如下
S3.3:根据前向传播变量和反向传播变量获得CTC损失函数L(x,z),如下:
S3.4:采用随机梯度下降算法对模型进行训练,计算损失函数的梯度,其中, 损失函数关于网络输出为:
S3.5:根据损失函数的输出判断模型是否达到最优,当达到最优时停止训练, 得到训练好的模型。
基于同样的发明构思,本发明第二方面提供了基于LSTM-CTC尾部卷积的 语音识别模型的构建装置,包括:
训练数据获取模块,用于获取训练数据;
模型构建模块,用于构建神经网络模型,其中,神经网络模型包括两个LSTM 层、全卷积层以及Softmax层,其中,LSTM层用以提取出与输入特征序列长度 相同的隐藏状态序列,全卷积层用以对输入的隐藏状态序列进行降秩、分类, Softmax层用以对全卷积层的输出进行映射,得到类别预测;
模型训练模块,用于将获取的训练数据输入神经网络模型,并采用CTC损 失函数训练神经网络模型,根据CTC损失函数判断模型是否最优,当最优时停 止训练,得到训练好的模型,作为语音识别模型。
基于同样的发明构思,本发明第三方面提供了一种语音识别方法,包括:
将待识别的语音数据进行特征提取后输入第一方面所构建的语音识别模型 中,得到语音识别结果。
在一种实施方式中,语音识别模型的识别过程包括:
S1:通过LSTM层提取出与输入特征序列长度相同的隐藏状态序列;
S2:通过全卷积层用以对输入的隐藏状态序列进行降秩、分类;
S3:通过Softmax层对全卷积层的输出进行映射,得到类别预测。
S1.1:计算遗忘门,选择要遗忘的信息:ft=σ(Wf·[ht-1,xt]+bf)
其中,输入为前一时刻隐藏状态ht-1和当前时刻的输入词xt,输出为ft,Wf、 bf分别为遗忘门的权值矩阵和偏置;
S1.2:计算输入门,选择要记忆的信息:
it=σ(Wi·[ht-1,xt]+bi)
S1.4:计算输出门和当前时刻隐藏状态
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中,输入为前一时刻的隐藏状态ht-1、当前时刻的输入词xt和当前时刻细 胞状态Ct,输出为输出门的值ot和隐藏状态ht;
S1.5:最后计算得到与输入的特征序列长度相同的隐藏状态序列 {h0,h1,...,hn-1}。
在一种实施方式中,S3具体包括:将全卷积层输出的特征表征为不同类别 之间的相对概率,得到最终的类别预测,
其中,i表示第i个类别,N表示类别总数,Vi表示第i个类别的概率值,Si表示经softmax处理之后第i个类别的概率值。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术 效果:
本发明提供的一种基于LSTM-CTC尾部卷积的语音识别模型的构建方法, 构建的神经网络模型包括两个LSTM层、全卷积层以及Softmax层,采用全卷积 层替换现有传统方案中LSTM层和softmax层之间的全连接层,与现有的全连接 层相比,卷积层中由卷积核来进行计算,卷积核的计算是并行的,因此可以减少 模型的训练时间。
基于以上构建的语音识别模型,本发明还提供了一种基于该模型的语音识别 方法,从而可以提高语音识别效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例 或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的 附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳 动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于LSTM-CTC尾部卷积的语音识别模型的构建 方法的实现流程示意图;
图2为本发明实施例提供的LSTM-CTC的模型的流程图;
图3是本发明基于LSTM-CTC尾部卷积的语音识别模型的构建装置的结构 框图;
图4为利用本发明的语音识别模型进行语音识别的工作流程图。
具体实施方式
本申请发明人通过大量的研究与实践发现:基于先验知识,长短时记忆网络 在backprop(反向传播)时三个门(gate)以及memory cell(记忆细胞)都依赖 于上一个时间点的预测,因此是无法并行的。这就使得LSTM在训练时非常耗 时,且由于LSTM的时序性特征,并行化LSTM网络十分困难。基于此,本发 明旨在通过修改LSTM-CTC的网络结构,减少语音识别模型的训练时间。
为了实现上述目的,本发明的主要构思如下:
本发明提出了基于LSTM-CTC(Long Short Term Memory ConnectionistTemporal Classification)尾部卷积的语音识别模型的构建方法,通过用一个全卷 积层来替换BiLSTM层与softmax层之间的全连接层,以达到网络训练加速的效 果。其中,LSTM用于训练语音识别模型,CTC作为损失函数,卷积层用于并 行化原全连接层需同时进行的计算。基于卷积层的LSTM-CTC网络利用卷积核 并行计算的特点,使得原本的全连接层的计算不需要同时输入到内存中,从而加 速网络的优化。与现有技术相比,本发明加快了语音模型的训练,减少了开发者 的时间成本,在一定程度上降低了硬件的需求标准。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实 施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所 描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实 施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。
实施例一
本实施例提供了一种基于LSTM-CTC尾部卷积的语音识别模型的构建方法, 请参见图1,该方法包括:
S1:获取训练数据;
S2:构建神经网络模型,其中,神经网络模型包括两个LSTM层、全卷积 层以及Softmax层,其中,LSTM层用以提取出与输入特征序列长度相同的隐藏 状态序列,全卷积层用以对输入的隐藏状态序列进行降秩、分类,Softmax层用 以对全卷积层的输出进行映射,得到类别预测;
S3:将获取的训练数据输入神经网络模型,并采用CTC损失函数训练神经 网络模型,根据CTC损失函数判断模型是否最优,当最优时停止训练,得到训 练好的模型,作为语音识别模型。
具体来说,S1中的训练数据可以通过语音识别获取。
S2中是构建神经网络模型框架,本发明创新性地将LSTM层与softmax层 之间的全连接层替换为卷积层,通过卷积层的并行计算,从而提高模型训练的效 率。
S3中CTC(Connectionist Temporal Classification)可以直接使用序列进行训练。 CTC引入了一个新的损失函数,可以直接使用未切分的序列记性训练。
在一种实施方式中,S1具体包括:
将从语音数据中提取的FBank特征作为训练数据。
具体来说,可以通过通过音频输入设备获取语音数据,然后通过音频前端处 理获取音频的FBank特征。
在一种实施方式中,S3具体包括:
S3.1:计算前向传播变量α(t,u),α(t,u)为所有输出长度为t,经过映射之 后为序列l的路径的概率之和,如下:
S3.2:计算反向传播向量β(t,u),β(t,u)为从t+1时刻开始在前向变量α(t,u) 上添加路径π',使得最后通过映射以后为序列l的概率之和,如下
S3.4:采用随机梯度下降算法对模型进行训练,计算损失函数的梯度,其中, 损失函数关于网络输出为:
S3.5:根据损失函数的输出判断模型是否达到最优,当达到最优时停止训练, 得到训练好的模型。
具体来说,以CTC作为损失函数,采用随机梯度下降算法(Stochastic gradientdescent,SGD)来训练网络,通过损失函数来衡量模型是否“最优”,如果“最 优”,则停止训练,若不是,则需配合随机梯度下降算法来指导网络的下一步训 练和优化。
请参见图2,为语音识别的模型的流程图,首先输入训练数据,然后构建网 络结果:两层LSTM(LSTM1和LSTM2)、全卷积层和Softmax层,在确定模 型的结构后,采用CTC损失函数对模型进行训练,最后得到语音识别模型。
与现有技术相比,本发明具有以下优点和有益效果:节约网络训练的时间成 本,一定程度上降低网络训练的硬件需求。
实施例二
基于同样的发明构思,本实施例提供了一种基于LSTM-CTC尾部卷积的语 音识别模型的构建装置,请参见图3,该装置包括:
训练数据获取模块201,用于获取训练数据;
模型构建模块202,用于构建神经网络模型,其中,神经网络模型包括两个 LSTM层、全卷积层以及Softmax层,其中,LSTM层用以提取出与输入特征序 列长度相同的隐藏状态序列,全卷积层用以对输入的隐藏状态序列降秩、分类, Softmax层用以对全卷积层的输出进行映射,得到类别预测;
模型训练模块203,用于将获取的训练数据输入神经网络模型,并采用CTC 损失函数训练神经网络模型,根据CTC损失函数判断模型是否最优,当最优时 停止训练,得到训练好的模型,作为语音识别模型。
由于本发明实施例二所介绍的装置,为实施本发明实施例一中基于 LSTM-CTC尾部卷积的语音识别模型的构建方法所采用的装置,故而基于本发 明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形, 故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲 保护的范围。
实施例三
基于同样的发明构思,本实施例提供了一种语音识别方法,包括:
将待识别的语音数据进行特征提取后输入实施例一构建的语音识别模型中, 得到语音识别结果。
在一种实施方式中,语音识别模型的识别过程包括:
S1:通过LSTM层提取出与输入特征序列长度相同的隐藏状态序列;
S2:通过全卷积层用以对输入的隐藏状态序列进行降秩、分类;
S3:通过Softmax层对全卷积层的输出进行映射,得到类别预测。
S1.1:计算遗忘门,选择要遗忘的信息:ft=σ(Wf·[ht-1,xt]+bf)
其中,输入为前一时刻隐藏状态ht-1和当前时刻的输入词xt,输出为ft,Wf、 bf分别为遗忘门的权值矩阵和偏置;
S1.2:计算输入门,选择要记忆的信息:
it=σ(Wi·[ht-1,xt]+bi)
S1.4:计算输出门和当前时刻隐藏状态
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中,输入为前一时刻的隐藏状态ht-1、当前时刻的输入词xt和当前时刻细 胞状态Ct,输出为输出门的值ot和隐藏状态ht;
S1.5:最后计算得到与输入的特征序列长度相同的隐藏状态序列 {h0,h1,...,hn-1}。
具体来说,S1.1~S1.5详细介绍了LTSM层的实现过程,两层LSTM的作用 是相同的,采用多层LSTM加深网络深度,可以加强网络模型的表达能力,但 是因为梯度消失的问题,所以选择用两层LSTM来训练和预测。
在一种实施方式中,S3具体包括:将全卷积层输出的特征表征为不同类别 之间的相对概率,得到最终的类别预测,
其中,i表示第i个类别,N表示类别总数,Vi表示第i个类别的概率值,Si表示经softmax处理之后第i个类别的概率值。
请参见图4,为利用语音识别模型进行语音识别的流程图,训练语音中提取 的Fbank特征用于模型的训练,得到的解码模型即最终的语音识别模型,将待识 别的语音或者测试语音输入解码模型得到最终的识别结果,即识别文本。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算 机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软 件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计 算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、 光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品 的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或 方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框 的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机 或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可 编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本 创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意 欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离 本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本 发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在 内。
Claims (8)
1.基于LSTM-CTC尾部卷积的语音识别模型的构建方法,其特征在于,包括:
S1:获取训练数据;
S2:构建神经网络模型,其中,神经网络模型包括两个LSTM层、全卷积层以及Softmax层,其中,LSTM层用以提取出与输入特征序列长度相同的隐藏状态序列,全卷积层用以对输入的隐藏状态序列进行降秩、分类,Softmax层用以对全卷积层的输出进行映射,得到类别预测;
S3:将获取的训练数据输入神经网络模型,并采用CTC损失函数训练神经网络模型,根据CTC损失函数判断模型是否最优,当最优时停止训练,得到训练好的模型,作为语音识别模型。
2.如权利要求1所述的方法,其特征在于,S1具体包括:
将从语音数据中提取的FBank特征作为训练数据。
3.如权利要求1所述的方法,其特征在于,S3具体包括:
S3.1:计算前向传播变量α(t,u),α(t,u)为所有输出长度为t,经过映射之后为序列l的路径的概率之和,如下:
S3.2:计算反向传播向量β(t,u),β(t,u)为从t+1时刻开始在前向变量α(t,u)上添加路径π',使得最后通过映射以后为序列l的概率之和,如下
S3.4:采用随机梯度下降算法对模型进行训练,计算损失函数的梯度,其中,损失函数关于网络输出为:
S3.5:根据损失函数的输出判断模型是否达到最优,当达到最优时停止训练,得到训练好的模型。
4.基于LSTM-CTC尾部卷积的语音识别模型的构建装置,其特征在于,包括:
训练数据获取模块,用于获取训练数据;
模型构建模块,用于构建神经网络模型,其中,神经网络模型包括两个LSTM层、全卷积层以及Softmax层,其中,LSTM层用以提取出与输入特征序列长度相同的隐藏状态序列,全卷积层用以对输入的隐藏状态序列进行降秩、分类,Softmax层用以对全卷积层的输出进行映射,得到类别预测;
模型训练模块,用于将获取的训练数据输入神经网络模型,并采用CTC损失函数训练神经网络模型,根据CTC损失函数判断模型是否最优,当最优时停止训练,得到训练好的模型,作为语音识别模型。
5.一种语音识别方法,其特征在于,包括:
将待识别的语音数据进行特征提取后输入如权利要求1至3任一项权利要求所述的语音识别模型中,得到语音识别结果。
6.如权利要求5所述的方法,其特征在于,语音识别模型的识别过程包括:
S1:通过LSTM层提取出与输入特征序列长度相同的隐藏状态序列;
S2:通过全卷积层用以对输入的隐藏状态序列进行降秩、分类;
S3:通过Softmax层对全卷积层的输出进行映射,得到类别预测。
7.如权利要求6所述的方法,其特征在于,LSTM层包括时刻的输入词Xt,细胞状态Ct,临时细胞状态隐藏状态ht,遗忘门ft,输入门it,输出门ot,通过LSTM层提取出与输入特征序列长度相同的隐藏状态序列,包括:
S1.1:计算遗忘门,选择要遗忘的信息:ft=σ(Wf·[ht-1,xt]+bf)
其中,输入为前一时刻隐藏状态ht-1和当前时刻的输入词xt,输出为ft,Wf、bf分别为遗忘门的权值矩阵和偏置;
S1.2:计算输入门,选择要记忆的信息:
it=σ(Wi·[ht-1,xt]+bi)
S1.4:计算输出门和当前时刻隐藏状态
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中,输入为前一时刻的隐藏状态ht-1、当前时刻的输入词xt和当前时刻细胞状态Ct,输出为输出门的值ot和隐藏状态ht;
S1.5:最后计算得到与输入的特征序列长度相同的隐藏状态序列{h0,h1,...,hn-1}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010253075.6A CN111653275B (zh) | 2020-04-02 | 2020-04-02 | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010253075.6A CN111653275B (zh) | 2020-04-02 | 2020-04-02 | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111653275A true CN111653275A (zh) | 2020-09-11 |
CN111653275B CN111653275B (zh) | 2022-06-03 |
Family
ID=72352085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010253075.6A Active CN111653275B (zh) | 2020-04-02 | 2020-04-02 | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111653275B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112233655A (zh) * | 2020-09-28 | 2021-01-15 | 上海声瀚信息科技有限公司 | 一种提高语音命令词识别性能的神经网络训练方法 |
CN112235470A (zh) * | 2020-09-16 | 2021-01-15 | 重庆锐云科技有限公司 | 基于语音识别的来电客户跟进方法、装置及设备 |
CN112802491A (zh) * | 2021-02-07 | 2021-05-14 | 武汉大学 | 一种基于时频域生成对抗网络的语音增强方法 |
CN113192489A (zh) * | 2021-05-16 | 2021-07-30 | 金陵科技学院 | 一种基于多尺度增强BiLSTM模型的喷漆机器人语音识别方法 |
CN113808581A (zh) * | 2021-08-17 | 2021-12-17 | 山东大学 | 一种声学和语言模型训练及联合优化的中文语音识别方法 |
CN115563508A (zh) * | 2022-11-08 | 2023-01-03 | 北京百度网讯科技有限公司 | 模型训练方法、装置以及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190130578A1 (en) * | 2017-10-27 | 2019-05-02 | Siemens Healthcare Gmbh | Vascular segmentation using fully convolutional and recurrent neural networks |
CN109710922A (zh) * | 2018-12-06 | 2019-05-03 | 深港产学研基地产业发展中心 | 文本识别方法、装置、计算机设备和存储介质 |
US20190180188A1 (en) * | 2017-12-13 | 2019-06-13 | Cognizant Technology Solutions U.S. Corporation | Evolution of Architectures For Multitask Neural Networks |
US20190341052A1 (en) * | 2018-05-02 | 2019-11-07 | Simon Says, Inc. | Machine Learning-Based Speech-To-Text Transcription Cloud Intermediary |
CN110633646A (zh) * | 2019-08-21 | 2019-12-31 | 数字广东网络建设有限公司 | 图像敏感信息检测的方法、装置、计算机设备和存储介质 |
-
2020
- 2020-04-02 CN CN202010253075.6A patent/CN111653275B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190130578A1 (en) * | 2017-10-27 | 2019-05-02 | Siemens Healthcare Gmbh | Vascular segmentation using fully convolutional and recurrent neural networks |
US20190180188A1 (en) * | 2017-12-13 | 2019-06-13 | Cognizant Technology Solutions U.S. Corporation | Evolution of Architectures For Multitask Neural Networks |
US20190341052A1 (en) * | 2018-05-02 | 2019-11-07 | Simon Says, Inc. | Machine Learning-Based Speech-To-Text Transcription Cloud Intermediary |
CN109710922A (zh) * | 2018-12-06 | 2019-05-03 | 深港产学研基地产业发展中心 | 文本识别方法、装置、计算机设备和存储介质 |
CN110633646A (zh) * | 2019-08-21 | 2019-12-31 | 数字广东网络建设有限公司 | 图像敏感信息检测的方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
吴邦誉等: "采用拼音降维的中文对话模型", 《中文信息学报》, no. 05, 15 May 2019 (2019-05-15) * |
杨艳芳等: "基于深度卷积长短时记忆网络的加速度手势识别", 《电子测量技术》, no. 21, 8 November 2019 (2019-11-08) * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112235470A (zh) * | 2020-09-16 | 2021-01-15 | 重庆锐云科技有限公司 | 基于语音识别的来电客户跟进方法、装置及设备 |
CN112233655A (zh) * | 2020-09-28 | 2021-01-15 | 上海声瀚信息科技有限公司 | 一种提高语音命令词识别性能的神经网络训练方法 |
CN112802491A (zh) * | 2021-02-07 | 2021-05-14 | 武汉大学 | 一种基于时频域生成对抗网络的语音增强方法 |
CN112802491B (zh) * | 2021-02-07 | 2022-06-14 | 武汉大学 | 一种基于时频域生成对抗网络的语音增强方法 |
CN113192489A (zh) * | 2021-05-16 | 2021-07-30 | 金陵科技学院 | 一种基于多尺度增强BiLSTM模型的喷漆机器人语音识别方法 |
CN113808581A (zh) * | 2021-08-17 | 2021-12-17 | 山东大学 | 一种声学和语言模型训练及联合优化的中文语音识别方法 |
CN113808581B (zh) * | 2021-08-17 | 2024-03-12 | 山东大学 | 一种声学和语言模型训练及联合优化的中文语音识别方法 |
CN115563508A (zh) * | 2022-11-08 | 2023-01-03 | 北京百度网讯科技有限公司 | 模型训练方法、装置以及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111653275B (zh) | 2022-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111653275B (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN106098059B (zh) | 可定制语音唤醒方法及系统 | |
CN108346436B (zh) | 语音情感检测方法、装置、计算机设备及存储介质 | |
CN104143327B (zh) | 一种声学模型训练方法和装置 | |
CN111914644A (zh) | 一种基于双模态协同的弱监督时序动作定位方法及系统 | |
US11205419B2 (en) | Low energy deep-learning networks for generating auditory features for audio processing pipelines | |
CN111477220B (zh) | 一种面向家居口语环境的神经网络语音识别方法及系统 | |
CN112749274A (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN111563161B (zh) | 一种语句识别方法、语句识别装置及智能设备 | |
CN110459207A (zh) | 唤醒语音关键短语分割 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN111882042B (zh) | 用于液体状态机的神经网络架构自动搜索方法、系统及介质 | |
Regmi et al. | Nepali speech recognition using rnn-ctc model | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN115687934A (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
CN113870863B (zh) | 声纹识别方法及装置、存储介质及电子设备 | |
CN112417890B (zh) | 一种基于多样化语义注意力模型的细粒度实体分类方法 | |
CN111783688B (zh) | 一种基于卷积神经网络的遥感图像场景分类方法 | |
CN114333768A (zh) | 语音检测方法、装置、设备和存储介质 | |
CN112560440A (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
CN115803808A (zh) | 合成语音检测 | |
US20240046921A1 (en) | Method, apparatus, electronic device, and medium for speech processing | |
CN114357160B (zh) | 基于生成传播结构特征的早期谣言检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |