CN107527626A

CN107527626A - 一种音频识别系统

Info

Publication number: CN107527626A
Application number: CN201710766382.2A
Authority: CN
Inventors: 黄锐; 张楠赓
Original assignee: Canaan Creative Co Ltd
Current assignee: Canaan Bright Sight Co Ltd
Priority date: 2017-08-30
Filing date: 2017-08-30
Publication date: 2017-12-29

Abstract

本发明公开了一种音频识别系统，用以提高音频识别的准确度。所述系统包括：声源定向单元，用于从收集到的多路音频信号中确定入射角度为预设角度的N路音频信号；卷积特征图获取组件，用于获取所述N路音频信号对应的N张卷积特征图；梅尔倒谱系数获取组件，用于获取所述N路音频信号对应的N个梅尔频率倒谱系数特征；全连接神经网络单元，用于根据N张特征图，以及N个梅尔频率倒谱系数特征计算所述N路音频信号的音频分类与识别结果。采用本发明所提供的系统，在噪声干扰或存在多个声源时依然获得很好的实时音频跟踪与处理能力，提高了音频识别的准确度。

Description

一种音频识别系统

技术领域

本发明涉及互联网技术领域，特别涉及一种音频识别系统。

背景技术

利用一些设备实现未知音频的识别，成为一种新的应用趋势。音频识别技术能够应用于听歌识曲、声音文字转换、在线翻译等各种场景下，为人们的工作生活提供了便利。

在现有技术中，通过一声音采集设备采集周围的音频信息，并对音频信息进行处理，从而得到音频的最终识别结果，但是，由于采集音频时，要采集的目标声源的位置和数量是不可控的，因此，采集过程中不可避免的要受到噪声的影响，从而降低了音频识别的准确度；其次，当存在多个声源时，现有的音频识别方案的识别效果也不理想，因此，如何提出一种音频识别系统，用以在噪声干扰或存在多个声源时依然获得很好的实时音频跟踪与处理能力，提高音频识别的准确度，是一亟待解决的技术问题。

发明内容

本发明提供一种音频识别系统，用以提高音频识别的准确度。

本发明提供一种音频识别系统，包括：

声源定向单元，用于从收集到的多路音频信号中确定入射角度为预设角度的N路音频信号；

卷积特征图获取组件，用于获取所述N路音频信号对应的N张卷积特征图；

梅尔倒谱系数获取组件，用于获取所述N路音频信号对应的N个梅尔频率倒谱系数特征；

全连接神经网络单元，用于根据所述卷积特征图获取组件获取到的N张特征图，以及所述梅尔倒谱系数获取组件获取到的N个梅尔频率倒谱系数特征计算所述N路音频信号的音频分类与识别结果。

本发明的有益效果在于：能够同时收集多路音频，实现多个声源音频的实时定向、实时跟踪以及实时识别，从而，在噪声干扰或存在多个声源时依然获得很好的实时音频跟踪与处理能力，提高音频识别的准确度。

在一个实施例中，所述系统还包括：

麦克风阵列单元，用于收集所述多路音频信号。

在一个实施例中，所述系统还包括：

音频处理组件，用于对所述音频信号进行处理，包括：

第一音频信号接收单元，用于接收所述麦克风阵列单元收集到的多路音频信号以及所述声源定向单元确定的所述N路音频信号；

音频增益单元，用于将所述声源定向单元确定的所述N路音频信号进行多倍增益；

音频抑制单元，用于将除所述N路音频信号之外的其他路音频信号进行抑制。

在一个实施例中，

所述音频增益单元和所述音频抑制单元中配置的算法为时间延迟波束形成算法与Frost波束形成算法。

在一个实施例中，所述系统还包括：

FFT计算组件，包括：

第二音频信号接收单元，用于接收进行多倍增益后的所述N路音频信号；

频谱计算单元，用于计算所述N路音频信号的频谱；

频谱发送单元，用于将计算的所述N路音频信号的频谱分别发送至所述卷积特征图获取组件和所述梅尔倒谱系数获取组件。

在一个实施例中，所述卷积特征图获取组件，包括：

语谱图计算单元，用于根据所述N路音频信号的频谱计算所述N路音频信号对应的N张语谱图；

图像选择器，用于逐一接收所述N张语谱图，并在接收到每张语谱图时将其发送至卷积神经网络单元；

卷积神经网络单元，用于在接收到所述语谱图时，根据每张语谱图计算每路音频信号对应的卷积特征图。

在一个实施例中，所述语谱图计算单元根据以下方式获得所述N路音频信号对应的N张语谱图：

将每路音频信号在预设时间内得到的频谱中的时间作为x轴，频率作为y轴，能量作为z轴进行数据放置；

当达到预设时间后，得到N张以x轴为图像宽，y轴为图像高，z轴为图像颜色的语谱图。

在一个实施例中，所述梅尔倒谱系数处理组件，包括：

梅尔频率倒谱系数单元，用于根据所述N路音频信号的频谱计算所述N路音频信号对应的N个梅尔频率倒谱系数特征；

数据选择器，用于逐一接收所述N个梅尔频率倒谱系数特征，并在接收到每个梅尔频率倒谱系数特征时将其发送至全连接神经网络单元。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明一实施例中音频识别系统的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明一实施例中音频识别系统的框图，如图1所示，该系统包括：

声源定向单元101，用于从收集到的多路音频信号中确定入射角度为预设角度的N路音频信号；

全连接神经网络单元102，用于根据所述卷积特征图获取组件获取到的N张特征图，以及所述梅尔倒谱系数获取组件获取到的N个梅尔频率倒谱系数特征计算所述N路音频信号的音频分类与识别结果。

本发明中，在声源定向单元101从多路音频信号中选取N路入射角度为预设角度的音频信号。

然后，卷积特征图获取组件获取N路音频信号对应的N张卷积特征图；

其中，卷积特征图获取组件可以包括语谱图计算单元106、图像选择器107以及卷积神经网络单元108。卷积特征图获取组件可以根据其包含的各个功能单元执行如下操作计算音频信号对应的卷积特征图：

首先，语谱图计算单元106根据所述N路音频信号的频谱计算所述N路音频信号对应的N张语谱图；然后图像选择器107逐一接收这N张语谱图，并在接收到每张语谱图时将其发送至卷积神经网络单元；卷积神经网络单元108在接收到这些语谱图时，根据每张语谱图计算每路音频信号对应的卷积特征图。

梅尔倒谱系数获取组件获取所述N路音频信号对应的N个梅尔频率倒谱系数特征；

在计算得到N路音频信号对应的N个卷积特征图以及N路音频信号对应的N个梅尔频率倒谱系数特征之后，全连接神经网络单元102，根据所述卷积特征图获取组件获取到的N张特征图，以及所述梅尔倒谱系数获取组件获取到的N个梅尔频率倒谱系数特征计算所述N路音频信号的音频分类与识别结果。具体过程如下：

对上一层计算的结果结合预训练的权重参数，经过特定激活函数进行计算，到达下一层。以上流程仅为计算1层的流程。其中全连接人工神经网络的层数为F层，F的范围为1至5层，F优选2层。

最后，全连接神经网络单元102根据卷积特征图获取组件获取到的N张特征图，以及所述梅尔倒谱系数获取组件获取到的N个梅尔频率倒谱系数特征计算所述N路音频信号的音频分类与识别结果111。

本发明的有益效果在于：该系统能够实现多个声源音频的实时定向、实时跟踪以及实时识别，从而，在噪声干扰或存在多个声源时依然获得很好的实时音频跟踪与处理能力，提高音频识别的准确度。

系统可还包括：

麦克风阵列单元103，用于收集所述多路音频信号。

系统还可包括：

音频处理组件104，用于对所述音频信号进行处理，包括：

其中，上述音频增益单元和所述音频抑制单元中配置的算法优选时间延迟波束形成(Time Delay Beamforming)算法与Frost波束形成(Frost Beamforming)算法。

使用这两种算法可以使N个(N优选值为8)方向上指向的音频信号获得多倍增益，并且使得其余方向上的背景噪音获得抑制。

其中Frost波束形成(Frost Beamforming)算法效果上优于时间延迟波束形成(Time Delay Beamforming)算法，而时间延迟波束形成(Time Delay Beamforming)算法在计算速度上优于Frost波束形成(Frost Beamforming)算法，系统可以根据应用场景的不同自动选择不同的算法。

系统还可包括：

FFT计算组件105，包括：

频谱计算单元，用于计算所述N路音频信号的频谱；

FFT计算组件105中的第二音频信号接收单元接收多倍增益后的N路音频信号，频谱计算单元对多倍增益后的N路音频信号进行FFT(fastFouriertransform，快速傅里叶变换)计算，得出N路音频信号的频谱，频谱的频率范围为0kHz至10kHz。当音频信息为语音类信息时，其中优选0kHz至3kHz为语音类应用的配置。在计算出N路音频信号的频谱之后，频谱发送单元将计算的所述N路音频信号的频谱分别发送至所述卷积特征图获取组件和所述梅尔倒谱系数获取组件。

所述卷积特征图获取组件，包括：

语谱图计算单元106，用于根据所述N路音频信号的频谱计算所述N路音频信号对应的N张语谱图；

图像选择器107，用于逐一接收所述N张语谱图，并在接收到每张语谱图时将其发送至卷积神经网络单元；

卷积神经网络单元108，用于在接收到所述语谱图时，根据每张语谱图计算每路音频信号对应的卷积特征图。

也即，卷积特征图获取组件可以根据其包含的各个功能单元执行如下操作计算音频信号对应的卷积特征图：

语谱图计算单元106根据所述N路音频信号的频谱计算所述N路音频信号对应的N张语谱图；然后图像选择器107逐一接收这N张语谱图，并在接收到每张语谱图时将其发送至卷积神经网络单元；卷积神经网络单元108在接收到这些语谱图时，根据每张语谱图计算每路音频信号对应的卷积特征图。

上述卷积神经网络单元108使用的算法为卷积人工神经网络算法。流程为使用预训练的权重对图像进行二维卷积计算，进行归一化处理，然后对数据进行偏置，使用特定的激活函数对卷积结果进行处理，进行池化。以上流程仅为计算1层的流程，实际上会进行L次上述操作，取决于实际应用所使用的卷积神经网络模型，L的范围是3至100，对应3层至100层的卷积人工神经网络。L优选20至22层。其中归一化计算是避免训练过程过拟合，加速训练速度。

其中，语谱图计算单元根据以下方式获得所述N路音频信号对应的N张语谱图：

以语谱图计算单元106根据N路音频信号的频谱计算获得N张(N优选值为8)宽度为W，高度为H的语谱图为例：

其中W为经过的FFT时间窗数，范围为256至2048之间的任意整数(W优选1024)，经历的总时间为D×W毫秒。而H为FFT所使用的点数，范围是集合{256，512，1024，2048}四个整数(H优选512点)。获得语谱图原理是将每次FFT计算的功率谱以时间为x轴，频率为y轴，能量为z轴进行数据放置，采集D乘W时间后，以x轴为图像宽，y轴为图像高，z轴为图像颜色，获得宽度为W，高度为H的彩色语谱图。

梅尔倒谱系数处理组件可包括：

梅尔频率倒谱系数单元109，用于根据所述N路音频信号的频谱计算所述N路音频信号对应的N个梅尔频率倒谱系数特征；

数据选择器110，用于逐一接收所述N个梅尔频率倒谱系数特征，并在接收到每个梅尔频率倒谱系数特征时将其发送至全连接神经网络单元。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种音频识别系统，其特征在于，包括：

2.如权利要求1所述的系统，其特征在于，所述系统还包括：

麦克风阵列单元，用于收集所述多路音频信号。

3.如权利要求2所述的系统，其特征在于，所述系统还包括：

音频处理组件，用于对所述音频信号进行处理，包括：

4.如权利要求3所述的系统，其特征在于，

5.如权利要求3所述的系统，其特征在于，所述系统还包括：

FFT计算组件，包括：

频谱计算单元，用于计算所述N路音频信号的频谱；

6.如权利要求5所述的系统，其特征在于，所述卷积特征图获取组件，包括：

7.如权利要求6所述的系统，其特征在于，所述语谱图计算单元根据以下方式获得所述N路音频信号对应的N张语谱图：

8.如权利要求5所述的系统，其特征在于，所述梅尔倒谱系数处理组件，包括：