CN105845127A

CN105845127A - 语音识别方法及其系统

Info

Publication number: CN105845127A
Application number: CN201510017014.9A
Authority: CN
Inventors: 李宏言
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-01-13
Filing date: 2015-01-13
Publication date: 2016-08-10
Anticipated expiration: 2035-01-13
Also published as: CN105845127B

Abstract

本发明涉及语音识别领域，公开一种语音识别方法及系统。语音识别方法包括以下步骤：对获取的N路语音信号分别进行频谱分析，得到多维的N路初步频谱特征参数，输入预先训练好的基于深层神经网络的听觉感知模型的N个实例中进行特征变换，得到N路经提练的听觉感知特征；将N路经提练的听觉感知特征的组合输入预先训练好的声学分类模型中，对输出进行解码以识别出语音信号所对应的文字内容。本发明中，通过对获取的多路语音信号分别进行频谱分析和特征变换，实现对听觉感知的互补作用，提取得到的听觉感知特征更符合人耳听觉感知的特点，能够提高语音识别准确率和抗噪能力。

Description

语音识别方法及其系统

技术领域

本发明涉及模式识别领域，特别涉及语音识别技术领域。

背景技术

语音是语言的声学表现，是人类交流信息最自然、最有效、最方便的手段，也是人类思维的一种依托。在移动互联网时代，语音识别是非常重要的人机交互技术之一，在当今的信息化社会和快节奏生活中，利用信号处理和模式识别技术，使得可以用机器进行语音的自动识别，这对于提高生产效率和生活质量具有十分重要的意义。自动语音识别的应用领域十分广泛，它可以把手写文稿变成自动听写操作，可以用声音遥控家电，可以用语音在互联网上搜索感兴趣的事件，可以将语音进一步自动翻译成另一种语言，等等。

人工神经网络(Automatic neutral network,简称ANN)的研究一直是个热潮，因其非线性、自适应、鲁棒性及学习特性并且易于硬件实现等特点而受到人们的极大关注。对于语音信号的处理和识别，由于神经网络的结构与人耳耳蜗的层次和连接极其相似，因此神经网络模型的独特优点和超强的分类和映射能力能够充分借鉴和探索人的听觉神经机理，对神经网络和耳蜗模型互相结合的研究将是改进现有语音识别系统性能的重要方向。

人工神经网络是采用大量神经单元广泛地连接起来构成的一种复杂的信息处理网络，其中的神经单元及其相互连接模式是借鉴人类神经系统的结构和连接机制所涉及的。这种网络具有与人类神经系统相类似的信息特征抽取、知识概括和学习记忆功能。特别是近几年来，随着对网络模型预训练和玻尔兹曼机网络的研究深入，使得深层神经网络的训练获得可能，并随之带来对深层神经网络的大规模应用，也为神经网络模型结合耳蜗模型理论进行语音识别系统的改进提供了曙光。

近些年，随着信号处理和机器学习领域的发展，语音识别研究已经取得了很大的成功，包括高斯混合模型(Gaussion mixture model，简称GMM)、隐马尔可夫模型(Hidden markov model，简称HMM)和深层神经网络等技术在内的方法已经获得很高的识别准确率，但是在噪声环境下的性能却仍然不尽如人意，且现有算法针对不同噪声的效果差异很大。

因此需要解决现有语音识别系统在噪声环境下性能下降的问题，以期提高语音识别系统的适用性和实用性，并尽量接近并达到人耳语音感知的能力。

发明内容

本发明的目的在于提供一种语音识别方法及其系统，提取得到的听觉感知特征更符合人耳听觉感知的特点，能够提高语音识别准确率和抗噪能力。。

为解决上述技术问题，本发明的实施方式公开了一种语音识别方法，包括以下步骤：

获取N路语音信号，N是大于1的整数；

对获取的N路语音信号分别进行频谱分析，得到多维的N路初步频谱特征参数；

将多维的N路初步频谱特征参数分别输入预先训练好的基于深层神经网络的听觉感知模型的N个实例中进行特征变换，得到N路经提练的听觉感知特征；

将N路经提练的听觉感知特征的组合输入预先训练好的声学分类模型中，并对声学分类模型的输出进行解码以识别出语音信号所对应的文字内容。

本发明的实施方式还公开了一种语音识别系统，包括以下模块：

语音信号获取模块，用于获取N路语音信号，N是大于1的整数；

频谱分析模块，用于对获取的N路语音信号分别进行频谱分析，得到多维的N路初步频谱特征参数；

听觉感知模块，用于将多维的N路初步频谱特征参数分别输入预先训练好的基于深层神经网络的听觉感知模型的N个实例中进行特征变换，得到N路经提练的听觉感知特征；

声学分类和解码模块，用于将N路经提练的听觉感知特征的组合输入预先训练好的声学分类模型中，并对声学分类模型的输出进行解码以识别出语音信号所对应的文字内容。

本发明实施方式与现有技术相比，主要区别及其效果在于：

本发明通过对获取的多路语音信号分别进行频谱分析和特征变换，实现对听觉感知的互补作用，提取得到的听觉感知特征更符合人耳听觉感知的特点，能够提高语音识别准确率和抗噪能力。

进一步地，将线性频率轴变换为美尔频度可以模拟人耳频谱分析的非线性特性；使用一组三角形滤波器在频域对能量谱进行带通滤波可以模拟耳蜗基底膜对不同频带信号的感知作用；将左右毗邻的多个短时傅里叶参数进行拼接可以模拟人耳结构对语音信号时序特性的建模能力。

进一步地，利用麦克风阵列阵元间的时延和相位差，可以有效模拟双耳采集信号的形式，产生多通道差异性信号，达到抑制噪声干扰的目的，且在抑制噪声的同时不对期望信号产生任何干扰。

进一步地，对语音信号进行同步，将多个通道的不同信号在时间上进行同步对齐，以便互补不同通道信号对同一段音素的影响，达到对信号同步的实时调节的目的。

进一步地，初步频谱特征参数经过特征变换后得到的经提练的听觉感知特征能更精确，更符合人耳的语音感知特性。

进一步地，能够从传统单通道语音信号组成的语音训练集中，构建出多路通道语音信号，为训练左右耳听觉感知模型提供最初的素材。

进一步地，对于具有较多隐层的深层神经网络，通过逐层的非监督训练获得各隐层的初始参数，并以此初始参数作为整个网络的初始参数进一步训练网络的权重参数，避免了训练对初始参数敏感从而陷入局部最优的问题。

附图说明

图1是本发明第一实施方式中一种语音识别方法的流程示意图；

图2是本发明第二实施方式中对获取的两路语音信号进行频谱分析的流程示意图；

图3是本发明第三实施方式中从单通道语音信号构建双通道语音信号的流程示意图；

图4是本发明第三实施方式中根据多维的初步频谱特征参数对5层的听觉感知模型进行非监督训练的示意图

图5是本发明第三实施方式中训练基于深层神经网络的声学分类模型的示意图；

图6是本发明第三实施方式中构建用于解码的大型WFST识别网络模型的示意图

图7是本发明第三实施方式中基于耳蜗模型和深层神经网络的语音识别方法的结构框图；

图8是本发明第四实施方式中一种语音识别系统的结构示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

本发明第一实施方式涉及一种语音识别方法，图1是该语音识别方法的流程示意图。具体地说，如图1所示，该语音识别方法包括以下步骤：

步骤101，获取N路语音信号，N是大于1的整数。

其中，N路语音信号是在同一个场景下使用N个声音传感器同时获取的信号。

步骤102，对获取的N路语音信号分别进行频谱分析，得到多维的N路初步频谱特征参数。

步骤103，将多维的N路初步频谱特征参数分别输入预先训练好的听觉感知模型的N个实例中进行特征变换，得到N路经提练的听觉感知特征。

所述听觉感知模型可以是基于深层神经网络的语音学习模型。其中，深层神经网络的层数并没有严格定义，一般认为大于4层的网络才是深层的，因此在被发明中所使用的深层神经网络是指大于4层的网络。

步骤104，将N路经提练的听觉感知特征的组合输入预先训练好的声学分类模型中，并对声学分类模型的输出进行解码以识别出语音信号所对应的文字内容。

现有的语音识别方法普遍采用单通道输入的语音信号，虽然也提取类似人耳特性的声学特征，但是没有充分利用左右耳的互补特性；此外，现有的语音识别方法在提取听觉感知特征时，仅是将频谱分析后得到的初步频谱特征参数直接作为最终的听觉感知特征，该方法得到的听觉感知特征比较粗糙。

而本发明则是进一步将初步频谱特征参数分别输入预先训练好的基于深层神经网络的听觉感知模型的N个实例中进行特征变换，得到的N路经提练的听觉感知特征更精细。

综上，本实施方式通过对获取的多路语音信号分别进行频谱分析和特征变换，实现对听觉感知的互补作用，提取得到的听觉感知特征更符合人耳听觉感知的特点，能够提高语音识别准确率和抗噪能力。

本发明第二实施方式涉及一种语音识别方法，第二实施方式在第一实施方式的基础上进行了改进，主要改进之处在于：

将线性频率轴变换为美尔频度可以模拟人耳频谱分析的非线性特性；使用一组三角形滤波器在频域对能量谱进行带通滤波可以模拟耳蜗基底膜对不同频带信号的感知作用；将左右毗邻的多个短时傅里叶参数进行拼接可以模拟人耳结构对语音信号时序特性的建模能力；利用麦克风阵列阵元间的时延和相位差，可以有效模拟双耳采集信号的形式，产生多通道差异性信号，达到抑制噪声干扰的目的，且在抑制噪声的同时不对期望信号产生任何干扰；对语音信号进行同步能够达到对信号同步的实时调节的目的；初步频谱特征参数经过特征变换后得到的经提练的听觉感知特征能更精确，更符合人耳的语音感知特性。具体地说：

在步骤102中，包括以下子步骤：

对每路语音信号中的每一帧进行短时傅里叶变换；

在频域将线性频率轴变换为美尔频度以模拟非线性特性；

使用P个三角形滤波器在频域对能量谱进行带通滤波，得到每帧语音信号所对应的P维初步频谱特征参数，该子步骤可以模拟耳蜗基底膜对不同频带信号的感知作用；

将每一帧和左右毗邻的共Q帧语音信号各自所对应的P维初步频谱特征参数进行拼接，得到P*Q维初步频谱特征参数作为每一帧的初步频谱特征参数，该子步骤将左右毗邻的多个短时傅里叶参数进行拼接可以模拟人耳结构对语音信号时序特性的建模能力。

图2所示为对获取的两路语音信号进行频谱分析的流程示意图，如图所示，对左右耳输入信号进行语音分帧处理，对每一帧进行短时快速傅里叶变换，对变换后的频率轴进行美尔频率变换，对三角滤波器组滤出的多帧特征进行拼接得到特征参数。

优选地，P个带通滤波器的中心频率是按照美尔频率刻度均匀排列的，每个滤波器的三角形的两个底点的频率分别对应相邻的两个滤波器的中心频率，即每两个相邻的滤波器的过渡带相互搭接，且频率响应的和为1，同时滤波器的数目与耳蜗基底膜的临界带数相近。

上述频谱分析是基于耳蜗基底膜结构的频谱分析，此处有必要对耳蜗进行一定的阐述。语音感知是通过人耳和大脑的一系列物理、生理和心理的转换过程实现的，而耳蜗作为人耳感知的最重要器官，则起着至关重要的核心作用。研究语音感知阶段的生理和心理特性，也就是研究人耳是怎样听音的，人耳是怎样抑制噪声的，将对提高自动语音识别系统的抗噪性能有着重要的参考价值。耳蜗是一条盘起来的像蜗牛形状的管子，里面充满淋巴液。耳蜗中间和外面包着前庭膜和基底膜，基底膜上附有数以万计的纤毛细胞，纤毛细胞把接收到的声音振动信号转化为神经冲动，再由听觉神经传导到大脑，从而形成听觉感知。生理学和心理学的研究表明，耳蜗基底膜具有与信号频谱分析器相似的作用，而通过左右耳的双通道感知和互补，则会使人形成准确的听觉感应。耳蜗具有很强的信号处理能力，能将声信号的频率、强度和瞬时特征等重要信息编码成生物电序列的时空分布之中。有关人耳听觉感知机理的研究都是建立在耳蜗解剖学基础上的，特定频率的声音会引起耳蜗基底膜的振动，并以行波形式向蜗顶推移。在推移过程中基底膜的振动幅度逐渐增大，并在某一特定部位达到最大，然后迅速衰减并消失。产生最大振动的部位决定于声音的频率，高频声在耳蜗底部，低频声在耳蜗顶部。基底膜对声音信号的响应相当于使其通过一系列的滤波器。

当然，在本发明的其它实施方式中，频谱分析也可以采用其它方式进行，例如可以直接对每帧语音信号进行快速傅里叶变换(FFT)后直接将FFT变换后的数值向量直接作为频谱分析的结果，而不限于上述频谱分析方式。

优选地，在步骤101获取N路语音信号时，通过包括N个麦克风采集点的麦克风阵列获取获取N路语音信号。

麦克风阵列通过设置两个或多个麦克风采集点，以获取多路输入信号。即在两个麦克风的正前方形成一个接收区域，进而削减两个麦克风侧向的收音效果，分析出接收到语音信号音源的方向以及其变化，同时，由于阵元间时延和相位差的缘故，可以产生具有差异性和互补性的双向信号频谱，从而达到模拟双耳语音信号输入之目的。

通过声波抵达阵列中每个麦克风之间微小时差的相互作用，麦克风阵列可以得到更好的指向性，并从一定程度上达到只接收说话人的声音的同时，可以抑制环境噪声和干扰。

优选地，在上述“通过包括N个麦克风采集点的麦克风阵列获取获取N路语音信号”的步骤中，包括以下子步骤：

构建由N个麦克风采集点组成的麦克风阵列，并通过麦克风阵列拾取N路语音信号；

对N路语音信号进行同步控制，输出同步对齐的N路语音信号。

由于在语音识别模型训练过程中，需要将同一音素段的不同信号进行时间上的对齐，以便互补不同通道信号对同一段音素的影响，因此将多个通道的不同信号在时间上进行同步对齐，对语音信号达到同步的实时调节的目的。

优选地，在步骤103中，包括以下子步骤：

将多维的N路初步频谱特征参数分别作为各个听觉感知模型实例的输入特征；

根据输入特征和听觉感知模型实例的每个隐层的参数权重，计算得到相应的基于深层神经网络的听觉感知模型的输出特征作为N路经提练的听觉感知特征。

目前已有的技术方案是直接提取语音信号的频谱特征，然后直接利用神经网络模型来训练声学模型。已有的方案的抗噪声能力不强，没有充分利用耳蜗生理机制，因此存在较大的改进空间。

而本实施方式中初步频谱特征参数经过特征变换后得到的经提练的听觉感知特征能更精确，更符合人耳的语音感知特性。

本发明第三实施方式涉及一种语音识别方法，第三实施方式在第一实施方式的基础上进行了改进，主要改进之处在于：

能够从传统单通道语音信号组成的语音训练集中，构建出多路通道语音信号，为训练左右耳听觉感知模型提供最初的素材；对于具有较多隐层的深层神经网络，通过逐层的非监督训练获得各隐层的初始参数作为整个网络的初始参数，进一步训练网络的权重参数，避免了训练对初始参数敏感从而陷入局部最优的问题。具体地说：

该语音识别方法还包括预先训练基于深层神经网络的听觉感知模型的N个实例的步骤，该步骤包括以下子步骤：

从单通道语音信号组成的语音训练集中，构建出N路通道语音信号；

通过构建出的N路通道语音信号，分别建立相应的基于深层神经网络的听觉感知模型的实例。

其中，在上述“从单通道语音信号组成的语音训练集中，构建出N路通道语音信号”的子步骤中，包括以下子步骤：

设定N组时延参数和噪声参数，并根据时延参数和噪声参数分别设计N路输入语音信号的N个滤波器；

将语音训练集中的原始单通道语音信号分别通过N个滤波器，得到N路通道语音信号。

上述方法能够从传统单通道语音信号组成的语音训练集中，构建出多路通道语音信号，为训练左右耳听觉感知模型提供最初的素材，充分利用现有资源。

如图3所示为从单通道语音信号构建双通道语音信号的流程示意图，如图所示，根据设定时延参数计算出的相位差，以及根据设定的噪声种类和强度计算出的幅度响应函数，组成线性相位滤波器，将所述原始单通道语音信号通过所述线性相位滤波器输出得到模拟左右耳输入的语音信号。

此外，可以理解，在本发明的其它实施方式中，也可以通过其他方式得到用于训练听觉感知模型的多通道语音信号，例如可以直接使用多个语音传感器获得多通道语音信号用以训练听觉感知模型，而不局限于此。

在上述“通过构建出的N路通道语音信号，分别建立相应的基于深层神经网络的听觉感知模型的实例”的子步骤中，包括以下子步骤：

对N路通道语音信号分别进行频谱分析，并将得到的多维的初步频谱特征参数作为基于深层神经网络的听觉感知模型的输入特征；

根据初步频谱特征参数，利用限制性玻尔兹曼机采用非监督训练的方式逐层训练每个隐层的参数权重，得到相应的基于深层神经网络的听觉感知模型。

如图4所示为根据多维的初步频谱特征参数对5层的听觉感知模型进行非监督训练的示意图，如图所示，经过频谱分析得到的275维的特征经过5层神经网络训练后输出150维特征。

优选地，该语音识别方法还包括预先训练基于深层神经网络的声学分类模型的步骤，该步骤包括以下子步骤：

通过限制性玻尔兹曼机对各隐层以非监督的方式进行逐层预训练，获得各隐层的初始权重参数；

以预训练获得的初始权重参数为基础，通过后向传播算法进一步训练网络的权重参数，获得声学分类模型。

对于具有较多隐层的深层神经网络，通过逐层的非监督训练获得各隐层的初始参数，并以此初始参数作为整个网络的初始参数进一步训练网络的权重参数，避免了训练对初始参数敏感从而陷入局部最优的问题。

图5所示为训练基于深层神经网络的声学分类模型的示意图，如图5所示，主要包括以下步骤：预先训练一个GMM/HMM模型；对训练集中的每个样本，都进行语音和文本的强制对齐；获取大量特征帧和对应的HMM状态，这些特征帧和HMM状态将分别作为基于深层神经网络的声学分类模型的输入特征和理想输出。此处的特征帧就是听觉感知模型中输出的的300维的特征参数；利用获取的特征帧，进行基于深层神经网络的声学分类模型的预训练，此处的深层神经网络使用7个隐层，每个隐层有1024个节点，利用限制性玻尔兹曼机(RBM)逐层训练每个隐层的参数权重，此处的训练是不需要提供模型理想输出状态的非监督训练。在预训练阶段获得的网络参数权重的基础上，通过后向传播算法(BP)进一步训练网络的权重参数，当权重参数训练完毕后，就说明该网络模型已经训练完毕。

优选地，在“对声学分类模型的输出进行解码以识别出语音信号所对应的文字内容”的步骤之前，还包括步骤：

利用互联网海量资源构建识别解码网络。

相应优选地，在“对声学分类模型的输出进行解码以识别出语音信号所对应的文字内容”的步骤中，根据上述构建的识别解码网络对声学分类模型的输出进行解码和识别。

图6所示为构建用于解码的大型WFST识别网络模型的示意图，如图6所示，具体步骤主要有：

通过网络爬虫等网络抓取工具，从互联网上抓取各类文字资源；

对原始网页数据进行过滤加工，去除乱码、xml、其他语种等不需要的成分，然后形成纯文本语料；

对上述语料进行分析，建立常用词的词典；

利用词典对纯文本语料进行分词处理；

使用分词处理后的文本语料训练出N-gram语言模型；

使用获取的N-gram语言模型、词典以及共享状态，建立基于WFST的大型识别网络模型。

作为本实施方式的优选例，结合麦克风阵列设计、耳蜗模型理论、深度神经网络以及互联网海量语料资源，给出最终的全流程语音识别系统解决方案，图7是本发明的基于耳蜗模型和深层神经网络的语音识别方法的结构框图。

(1)基于麦克风阵列的模拟左右耳情形的双通道语音信号采集装置

本优选例之所以采用双路麦克风阵列作为信号输入装置，是基于两个原因，一是麦克风阵列将在不久的将来取代传统的桌面或头戴式麦克风作为主流的语音拾取装置，二是利用麦克风阵列可以有效模拟双耳信号采集形式，达到抑制噪声干扰的目的。因此，本优选例将在麦克风阵列噪声抑制特性的基础上进行针对本优选例应用实际情况的设计，以获得本优选例涉及的基于麦克风阵列的模拟左右耳情形的双通道语音信号采集装置。

噪声抑制是要去除观察信号中的噪声，以获得高质量的期望信号，而对于语音识别系统来说，噪声抑制就是去除影响识别结果的有害部分。由于通信过程中噪声的产生无法避免，并严重影响语音信号的质量，因此噪声抑制一直是信号处理中的研究热点。传统的信号采集装置大多数都是基于单一接收单元，例如桌面或头戴式麦克风，而这种基于单一接受单元的装置的最大问题是在抑制噪声的同时，往往也影响了期望信号，付出了信号可懂度或应用性能下降的代价。而利用多路麦克风阵列和其独特的空间滤波特性，可以很好地解决这一问题，可以达到抑制噪声的同时不对期望信号产生任何干扰的效果。

基于麦克风阵列实现噪声抑制的方法主要有自适应噪声对消和基于空间信息抑制两大类方法，其中自适应噪声对消方法是实时地在信号静默期获取噪声的参考信号以便进一步消弱噪声信号。而基于空间信息的方法又可以分为两类：基于波束形成原理的方法和基于盲信号分离的方法。基于波束形成的方法又可以分成固定波束形成方法和自适应的波束形成方法，其基本原理是利用阵列的空间信息对目标声源形成过滤波束避免来自其他方向的噪声干扰。经过综合考虑，并考量简易型、实用性等层面，本优选例将采用固定波束形成方式来进行麦克风阵列信号采集装置的设计。

众所周知，即使在嘈杂的背景环境下，人也能集中精神去听其中的某一种感兴趣的声音并能对其进行有效的识别分辨，这种现象在生理心理学上被称为“鸡尾酒会”效应。大量研究实验表明人的这种能力得益于人有两个耳朵，人的大脑只需要根据两只耳朵听到的声音就能有效跟踪和辨别声音信息，而采用不同的波束形成设计的麦克风阵列就可以在一定程度上达到人耳的这种生理功能。本优选例在设计中，将按照一定距离排列放置一组传声器，通过声波抵达阵列中每个传声器之间微小时差的相互作用，传声器阵列可得到比单个传声器更好的指向性，并从一定程度上达到只接受说话人的声音同时抑制环境噪声和干扰之目的。

(2)基于耳蜗基底膜结构的频率分析

语音的感知过程与人耳听觉系统的耳蜗结构具有频谱分析功能是紧密相关的，因此对语音信号进行频谱分析是模拟耳蜗频谱分析过程的必要环节，也是为听觉感知模型的建立提供输入信息。

傅里叶分析是分析线性系统和平稳信号稳态特性的强有力手段，它在许多工程和科学领域中得到了广泛的应用。这种以复指数函数为基函数的正交变换，理论上很完善，概念上易于理解，计算上也有快速算法，是信号处理领域的重要工具。但是，语音信号则是一种典型的非平稳信号，其非平稳性是由发音器官的物理运动过程所产生的。然而，语音信号产生的物理过程与声波振动的速度比起来要缓慢得多，因此可以假定语音信号在10～30毫秒这样短的时间段中是平稳的，即可以使用基于时间依赖的短时傅里叶变换对语音信号进行时频分析。

本优选例在传统傅里叶分析的基础上，结合耳蜗基底膜的结构特点，作如下三方面的改进：

首先，在频域将频率轴变换为美尔频度，以模拟耳蜗频谱分析的非线性特性；

然后，使用一组三角形滤波器在频域对能量谱进行带通滤波，以模拟耳蜗基底膜对不同频带信号的感知作用。这组带通滤波器的中心频率是按照美尔频率刻度均匀排列的，每个滤波器的三角形的两个底点的频率分别对应相邻的两个滤波器的中心频率，即每两个相邻的滤波器的过渡带相互搭接，且频率响应的和为1，同时滤波器的数目与耳蜗基底膜的临界带数相近；

第三，将左右毗邻的多个短时傅里叶参数进行拼接，以模拟耳蜗结构对语音信号时序特性的建模能力。

(3)基于深层神经网络的左右耳听觉感知模型和声学分类模型

基于HMM/GMM结构的方法被广泛应用于现有语音识别系统中，GMM被用于描述每个HMM状态的分布规律。自从二十世纪九十年代开始，研究人员就已经开始研究用人工神经网络模型(ANN)去取代GMM模型，并取得了一定效果，但是一直没有突破的进展。究其原因，是因为ANN的训练对初始参数敏感，致使训练过程非常容易陷入局部最优。对于具有1个或2个隐层的浅层ANN，初始模型参数可以使用随机方法获得，模型训练还能基本可控。但是对于具有更多隐层的深层神经网络，随机初始的参数会迅速将模型训练引入歧途，造成深层神经网络的训练非常困难，也制约了深层神经网络的应用。

近几年来，随着机器学习领域的快速发展，限制性玻尔兹曼机(Restricted boltzman machine,RBM)被引入到深层神经网络模型的预训练中，通过RBM对各个隐层进行逐层的非监督训练，以便获得各隐层的初始参数，然后以此作为整个网络的初始参数，再通过传统的后向传播(Backpropagation,BP)算法进行基于迭代计算的监督训练，最终获得近似最优的深层神经网络模型。

众所周知，人工神经网络就是参照人类神经感知系统的生理机理提出的，因此神经网络与人类的神经行为有着千丝万缕的联系。鉴于深层神经网络与人耳听觉神经系统具有相近的结构，具有更强的建模描述能力，并且已经在模型训练环节取得实质进展，因此本优选例将建立基于深层神经网络的听觉感知模型和声学分类模型。同时，由于听觉感知模型的主要作用是模拟人耳的感知机理，并非一定要区分出语音段的类属，因此对于听觉感知模型，本优选例只做不需要类属标签的非监督训练。

(4)全流程语音识别系统解决方案

语音识别属于多维模式识别和智能人机接口的范畴，语音识别研究的根本目的就是开发出一种具有听觉功能的机器，而语音识别系统本质上则是一种典型的模式识别系统。与常规模式识别系统一样，语音识别系统包括特征提取、模式匹配、参考模式库等三个基本单元，但是由于语音识别系统所处理的信息是非常复杂、内容极其丰富的人类语言信息，因此语音识别的系统结构要比通常模式识别系统复杂的多，而上述三个基本单元的内涵也更为丰富。

语音识别技术包括声学模型、语言模型、搜索解码、词典等四项关键技术环节，其中声学模型是重中之重。本发明就是针对声学模型的算法和技术改进，主要解决声学模型的抗噪声能力，通过模拟人耳耳蜗模型的生理机制，并改进对应的深度学习网络模型，达到提高语音识别准确率和抗噪性的目的。

对于语音识别系统来说，特征提取单元是一个很难彻底解决的问题，所提取特征的好坏将关乎模式识别的其他所有单元，本优选例使用前面叙述的基于耳蜗理论的语音特征提取方法，以期最大程度模拟耳蜗的频率分析和感知功能，同时采用麦克风阵列获取的双通道信号模拟输入到左右耳的信号并模拟左右耳的噪声抑制特性。

对于参考模式库单元，由于语音识别系统需要利用声学、语言学的模式知识，因此语音识别系统的参考模式库不是单一的模式库，而是具有层次结构的多种模式库，包括描述语音声学特性变化的声学模型模式库、描述语言学上下文关系的语言模型模式库以及连接声学模型和语言模型的词典。参考模式库的建立，即参考模式库对应的各种模型的训练是参考模式库单元的研究重点和难点，参考模型质量直接关系到最终的语音识别性能。对于声学模型，本优选例将采用前面论述的基于深层神经网络的模型结构，包含左右耳感知模型和进一步的声学分类模型，并使用大规模具有参考标注的语料数据和图形处理单元(Graphic process unit,GPU)进行深层神经网络模型的训练。

而对于语言模型和词典，本优选例将充分利用现有的海量互联网资源，将其转换为大型的解码网络，大型解码网络对于语音识别的通用性非常重要。语言模型采用N元回退(N-gram)模型，然后转化为具有权重的有限状态传输机(Weight finite state transducer,WFST)模型。而建立语言模型和词典所需要的数据资源，本优选例将通过从互联网抓取海量数据后进行过滤加工来获取。对于模式匹配单元，语音识别系统将在声学模型以及语言模型和词典所构建出的大型解码网络的框架下，对输入语音特征进行解码，输出语音信号所对应的文字内容。

根据上述发明内容和相应的技术方案，本优选例可以充分利用双路麦克风阵列的结构，达到模拟双耳信号输入的目的；可以提取出模拟耳蜗模型的特征信息，达到模拟耳蜗基底膜频谱分析之功能；可以利用深层神经网络模型的强大描述能力和计算能力，达到模拟左右耳听觉感知机理之目的；并进一步利用更深层次的神经网络模型，达到对声学类属进行精确分类的目的；可以充分利用海量网络资源，构建出大型的解码网络。也就是说，基于上述有关麦克风阵列、耳蜗模型、深度神经网络和大型解码网络等方面的发明内容，本优选例提供了关于语音识别中特征提取、声学模型设计和训练、解码网络构建的整套专利发明，使得本优选例的各部分内容形成一个有机的整体。

本优选例所建立的语音识别解决方案，由于充分吸收了麦克风阵列、耳蜗模型和深度神经网络模型的机理和优势，使得其更接近人耳的听觉感知物理和生理机理，其最突出的优点是具有良好的抗噪特性，相比传统语音识别系统，本优选例在噪声环境下的语音识别应用场景中的识别效果表现优异。同时，针对基于深度神经网络模型的声学训练，本优选例积累了大量具有人工标注的语音数据和学习样本库，该数据资源库涵盖了语音信号的各种形态，考虑了不同性别、不同年龄段和不同地域分布等差异性，使得本优选例训练出来的各种声学模型具有良好的推广性。

另外，由于麦克风阵列具有对远场干扰噪声很强的抑制左右，因此对于便携式IT设备，如PDA、GPS、笔记本和手机等终端设备，在较大噪声环境中本优选例设计的语音识别系统表现出非常好的效果，其在终端市场上的应用前景巨大。

本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是以软件、硬件、还是固件方式实现，指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的，易失性的或者非易失性的，固态的或者非固态的，固定的或者可更换的介质等等)。同样，存储器可以例如是可编程阵列逻辑(Programmable Array Logic，简称“PAL”)、随机存取存储器(Random Access Memory，简称“RAM”)、可编程只读存储器(Programmable Read Only Memory，简称“PROM”)、只读存储器(Read-Only Memory，简称“ROM”)、电可擦除可编程只读存储器(Electrically Erasable Programmable ROM，简称“EEPROM”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc，简称“DVD”)等等。

本发明第四实施方式涉及一种语音识别系统，图8是该语音识别系统的结构示意图。具体地说，如图8所示，该语音识别系统包括以下模块：

本实施方式通过对获取的多路语音信号分别进行频谱分析和特征变换，实现对听觉感知的互补作用，提取得到的听觉感知特征更符合人耳听觉感知的特点，能够提高语音识别准确率和抗噪能力。

第一实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

本发明第五实施方式涉及一种语音识别系统，第五实施方式在第四实施方式的基础上进行了改进，主要改进之处在于：

在频谱分析模块中，包括以下子模块：

傅里叶变换子模块，用于对每路语音信号中的每一帧进行短时傅里叶变换；

频率轴非线性变换子模块，用于在频域将线性频率轴变换为美尔频度以模拟非线性特性；

滤波组子模块，用于使用P个三角形滤波器在频域对能量谱进行带通滤波，得到每帧语音信号所对应的P维初步频谱特征参数；

频谱特征参数拼接子模块，用于将每一帧和左右毗邻的共Q帧语音信号各自所对应的P维初步频谱特征参数进行拼接，得到P*Q维初步频谱特征参数作为每一帧的初步频谱特征参数。

优选地，在语音信号获取模块中，通过包括N个麦克风采集点的麦克风阵列获取获取N路语音信号。

优选地，在语音信号获取模块中，包括以下子模块：

麦克风阵列信号采集子模块，用于构建由N个麦克风采集点组成的麦克风阵列，并通过麦克风阵列拾取N路语音信号；

同步控制子模块，用于对N路语音信号进行同步控制，输出同步对齐的N路语音信号。

优选地，在听觉感知模块中，包括以下子模块：

特征参数输入子模块，用于将多维的N路初步频谱特征参数分别作为各个听觉感知模型实例的输入特征；

听觉感知特征计算子模块，用于根据输入特征和听觉感知模型实例的每个隐层的参数权重，计算得到相应的基于深层神经网络的听觉感知模型的输出特征作为N路经提练的听觉感知特征。

第二实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第二实施方式中。

本发明第六实施方式涉及一种语音识别系统，第六实施方式在第四实施方式的基础上进行了改进，主要改进之处在于：

能够从传统单通道语音信号组成的语音训练集中，构建出多路通道语音信号，为训练左右耳听觉感知模型提供最初的素材。对于具有较多隐层的深层神经网络，通过逐层的非监督训练获得整个网络的初始参数，避免了训练对初始参数敏感从而陷入局部最优的问题。具体地说：

还包括听觉感知模型实例训练模块，该模块包括以下子模块：

多通道语音构建子模块，从单通道语音信号组成的语音训练集中，构建出N路通道语音信号；

听觉感知模型训练子模块，用于通过构建出的N路通道语音信号，分别建立相应的基于深层神经网络的听觉感知模型的实例。

其中，在多通道语音构建子模块中，包括以下子模块：

参数设定子模块，用于设定N组时延参数和噪声参数，并根据时延参数和噪声参数分别设计N路输入语音信号的N个滤波器；

滤波子模块，用于将语音训练集中的原始单通道语音信号分别通过N个滤波器，得到N路通道语音信号。

优选地，在听觉感知模型训练子模块中，包括以下子模块：

频谱特征输入子模块，用于对N路通道语音信号分别进行频谱分析，并将得到的多维的初步频谱特征参数作为基于深层神经网络的听觉感知模型的输入特征。

听觉感知模型参数计算子模块，用于根据初步频谱特征参数，利用限制性玻尔兹曼机采用非监督训练的方式逐层训练每个隐层的参数权重，得到相应的基于深层神经网络的听觉感知模型。

优选地，还包括声学分类模型训练模块，该模块包括以下子模块：

初始权重计算子模块，用于通过限制性玻尔兹曼机对各隐层以非监督的方式进行逐层预训练，获得各隐层的初始权重参数。

权重确定子模块，用于以预训练获得的初始权重参数为基础，通过后向传播算法进一步训练网络的权重参数，获得声学分类模型。

优选地，该语音识别系统还包括：

识别解码网络构建模块，用于利用互联网海量资源构建识别解码网络。

相应优选地，在声学分类和解码模块中，根据识别解码网络对声学分类模型的输出进行解码和识别。

第三实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第三实施方式互相配合实施。第三实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第三实施方式中。

现有的语音识别方法普遍采用单通道输入的语音信号，虽然也提取类似人耳特性的声学特征，但是没有充分利用左右耳的互补特性，因此本发明将通过麦克风阵列获取模拟左右耳的双通道差异性信号，并进而提取基于基底膜滤波器的语音特征。紧接着，利用深层神经网络建立左右耳感知模型，并利用左右耳感知模型的输出信息建立进一步的声学分类模型，最终将声学分类模型的输出送入到基于海量互联网资源所构建出的解码网络平台中，以获取高抗噪性的识别输出结果。同时，对麦克风阵列模块进行了硬件上的实现，提高了识别系统的响应和处理速度。通过对人类听觉感知的生理过程进行模拟建模建立的高鲁棒性的语音识别系统包括四个部分：设计麦克风阵列模拟出输入到左右耳的差异性语音信号、提取基于耳蜗模型的听觉感知特征、建立基于深层神经网络的声学分类模型、利用互联网海量资源构建识别解码网络。

通过模拟人耳耳蜗生理特征，并通过构建深层神经网络来达到提高语音识别准确率和抗噪声能力的目的，属于模型层面的优化改进。其他的替代方案有很多，包括直接对语音信号进行前端的抗噪处理，或者提取其他抗噪特征等方案。

需要说明的是，本发明各设备实施方式中提到的各模块都是逻辑模块，在物理上，一个逻辑模块可以是一个物理模块，也可以是一个物理模块的一部分，还可以以多个物理模块的组合实现，这些逻辑模块本身的物理实现方式并不是最重要的，这些逻辑模块所实现的功能的组合才是解决本发明所提出的技术问题的关键。此外，为了突出本发明的创新部分，本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的模块引入，这并不表明上述设备实施方式并不存在其它的模块。

需要说明的是，在本专利的权利要求和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本发明的某些优选实施方式，已经对本发明进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种语音识别方法，其特征在于，包括以下步骤：

获取N路语音信号，N是大于1的整数；

对所述获取的N路语音信号分别进行频谱分析，得到多维的N路初步频谱特征参数；

将所述多维的N路初步频谱特征参数分别输入预先训练好的听觉感知模型的N个实例中进行特征变换，得到N路经提练的听觉感知特征；

将所述N路经提练的听觉感知特征的组合输入预先训练好的声学分类模型中，并对所述声学分类模型的输出进行解码以识别出语音信号所对应的文字内容。

2.根据权利要求1所述的语音识别方法，其特征在于，在所述“对所述获取的N路语音信号分别进行频谱分析，得到多维的N路初步频谱特征参数”的步骤中，包括以下子步骤：

对所述每路语音信号中的每一帧进行短时傅里叶变换；

在频域将线性频率轴变换为美尔频度以模拟非线性特性；

使用P个三角形滤波器在频域对能量谱进行带通滤波，得到每帧语音信号所对应的P维初步频谱特征参数；

将每一帧和左右毗邻的共Q帧语音信号各自所对应的P维初步频谱特征参数进行拼接，得到P*Q维初步频谱特征参数作为每一帧的初步频谱特征参数。

3.根据权利要求1所述的语音识别方法，其特征在于，在所述获取N路语音信号的步骤中，通过包括N个麦克风采集点的麦克风阵列获取所述获取N路语音信号。

4.根据权利要求3所述的语音识别方法，其特征在于，在所述“通过包括N个麦克风采集点的麦克风阵列获取所述获取N路语音信号”的步骤中，包括以下子步骤：

构建由所述N个麦克风采集点组成的麦克风阵列，并通过所述麦克风阵列拾取N路语音信号；

对所述N路语音信号进行同步控制，输出同步对齐的N路语音信号。

5.根据权利要求1所述的语音识别方法，其特征在于，在所述“将所述多维的N路初步频谱特征参数分别输入预先训练好的基于深层神经网络的听觉感知模型的N个实例中进行特征变换，得到N路经提练的听觉感知特征”的步骤中，包括以下子步骤：

将所述多维的N路初步频谱特征参数分别作为各个听觉感知模型实例的输入特征；

根据所述输入特征和听觉感知模型实例的每个隐层的参数权重，计算得到相应的基于深层神经网络的听觉感知模型的输出特征作为N路经提练的听觉感知特征。

6.根据权利要求1所述的语音识别方法，其特征在于，还包括预先训练基于深层神经网络的听觉感知模型的N个实例的步骤，该步骤包括以下子步骤：

通过所述构建出的N路通道语音信号，分别建立相应的基于深层神经网络的听觉感知模型的实例。

7.根据权利要求6所述的语音识别方法，其特征在于，在所述“从单通道语音信号组成的语音训练集中，构建出N路通道语音信号”的子步骤中，包括以下子步骤：

设定N组时延参数和噪声参数，并根据所述时延参数和噪声参数分别设计N路输入语音信号的N个滤波器；

将所述语音训练集中的原始单通道语音信号分别通过所述N个滤波器，得到N路通道语音信号。

8.根据权利要求6所述的语音识别方法，其特征在于，在所述“通过所述构建出的N路通道语音信号，分别建立相应的基于深层神经网络的听觉感知模型的实例”的子步骤中，包括以下子步骤：

对所述N路通道语音信号分别进行频谱分析，并将得到的多维的初步频谱特征参数作为所述基于深层神经网络的听觉感知模型的输入特征；

根据所述初步频谱特征参数，利用限制性玻尔兹曼机采用非监督训练的方式逐层训练每个隐层的参数权重，得到相应的基于深层神经网络的听觉感知模型。

9.根据权利要求1所述的语音识别方法，其特征在于，还包括预先训练基于深层神经网络的声学分类模型的步骤，该步骤包括以下子步骤：

以所述预训练获得的初始权重参数为基础，通过后向传播算法进一步训练网络的权重参数，获得声学分类模型。

10.根据权利要求1所述的语音识别方法，其特征在于，在所述“对所述声学分类模型的输出进行解码以识别出语音信号所对应的文字内容”的步骤之前，还包括步骤：

利用互联网海量资源构建识别解码网络；

在所述“对所述声学分类模型的输出进行解码以识别出语音信号所对应的文字内容”的步骤中，根据所述识别解码网络对所述声学分类模型的输出进行解码和识别。

11.一种语音识别系统，其特征在于，包括以下模块：

频谱分析模块，用于对所述获取的N路语音信号分别进行频谱分析，得到多维的N路初步频谱特征参数；

听觉感知模块，用于将所述多维的N路初步频谱特征参数分别输入预先训练好的基于深层神经网络的听觉感知模型的N个实例中进行特征变换，得到N路经提练的听觉感知特征；

声学分类和解码模块，用于将所述N路经提练的听觉感知特征的组合输入预先训练好的声学分类模型中，并对所述声学分类模型的输出进行解码以识别出语音信号所对应的文字内容。

12.根据权利要求11所述的语音识别系统，其特征在于，在所述频谱分析模块中，包括以下子模块：

傅里叶变换子模块，用于对所述每路语音信号中的每一帧进行短时傅里叶变换；

13.根据权利要求11所述的语音识别系统，其特征在于，在所述语音信号获取模块中，通过包括N个麦克风采集点的麦克风阵列获取所述获取N路语音信号。

14.根据权利要求11所述的语音识别系统，其特征在于，在所述语音信号获取模块中，包括以下子模块：

麦克风阵列信号采集子模块，用于构建由所述N个麦克风采集点组成的麦克风阵列，并通过所述麦克风阵列拾取N路语音信号；

同步控制子模块，用于对所述N路语音信号进行同步控制，输出同步对齐的N路语音信号。

15.根据权利要求11所述的语音识别系统，其特征在于，在所述听觉感知模块中，包括以下子模块：

特征参数输入子模块，用于将所述多维的N路初步频谱特征参数分别作为各个听觉感知模型实例的输入特征；

听觉感知特征计算子模块，用于根据所述输入特征和听觉感知模型实例的每个隐层的参数权重，计算得到相应的基于深层神经网络的听觉感知模型的输出特征作为N路经提练的听觉感知特征。

16.根据权利要求11所述的语音识别系统，其特征在于，还包括听觉感知模型实例训练模块，该模块包括以下子模块：

听觉感知模型训练子模块，用于通过所述构建出的N路通道语音信号，分别建立相应的基于深层神经网络的听觉感知模型的实例。

17.根据权利要求16所述的语音识别系统，其特征在于，在所述多通道语音构建子模块中，包括以下子模块：

参数设定子模块，用于设定N组时延参数和噪声参数，并根据所述时延参数和噪声参数分别设计N路输入语音信号的N个滤波器；

滤波子模块，用于将所述语音训练集中的原始单通道语音信号分别通过所述N个滤波器，得到N路通道语音信号。

18.根据权利要求16所述的语音识别系统，其特征在于，在所述听觉感知模型训练子模块中，包括以下子模块：

频谱特征输入子模块，用于对所述N路通道语音信号分别进行频谱分析，并将得到的多维的初步频谱特征参数作为所述基于深层神经网络的听觉感知模型的输入特征；

听觉感知模型参数计算子模块，用于根据所述初步频谱特征参数，利用限制性玻尔兹曼机采用非监督训练的方式逐层训练每个隐层的参数权重，得到相应的基于深层神经网络的听觉感知模型。

19.根据权利要求11所述的语音识别系统，其特征在于，还包括声学分类模型训练模块，该模块包括以下子模块：

初始权重计算子模块，用于通过限制性玻尔兹曼机对各隐层以非监督的方式进行逐层预训练，获得各隐层的初始权重参数；

权重确定子模块，用于以所述预训练获得的初始权重参数为基础，通过后向传播算法进一步训练网络的权重参数，获得声学分类模型。

20.根据权利要求11所述的语音识别系统，其特征在于，还包括：

识别解码网络构建模块，用于利用互联网海量资源构建识别解码网络；

在所述声学分类和解码模块中，根据所述识别解码网络对所述声学分类模型的输出进行解码和识别。