CN107527626A - 一种音频识别系统 - Google Patents
一种音频识别系统 Download PDFInfo
- Publication number
- CN107527626A CN107527626A CN201710766382.2A CN201710766382A CN107527626A CN 107527626 A CN107527626 A CN 107527626A CN 201710766382 A CN201710766382 A CN 201710766382A CN 107527626 A CN107527626 A CN 107527626A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- audio
- unit
- roads
- mel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 95
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 238000001228 spectrum Methods 0.000 claims description 32
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000007935 neutral effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 abstract description 10
- 238000004590 computer program Methods 0.000 description 7
- 238000000034 method Methods 0.000 description 7
- 238000009740 moulding (composite fabrication) Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种音频识别系统,用以提高音频识别的准确度。所述系统包括:声源定向单元,用于从收集到的多路音频信号中确定入射角度为预设角度的N路音频信号;卷积特征图获取组件,用于获取所述N路音频信号对应的N张卷积特征图;梅尔倒谱系数获取组件,用于获取所述N路音频信号对应的N个梅尔频率倒谱系数特征;全连接神经网络单元,用于根据N张特征图,以及N个梅尔频率倒谱系数特征计算所述N路音频信号的音频分类与识别结果。采用本发明所提供的系统,在噪声干扰或存在多个声源时依然获得很好的实时音频跟踪与处理能力,提高了音频识别的准确度。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种音频识别系统。
背景技术
利用一些设备实现未知音频的识别,成为一种新的应用趋势。音频识别技术能够应用于听歌识曲、声音文字转换、在线翻译等各种场景下,为人们的工作生活提供了便利。
在现有技术中,通过一声音采集设备采集周围的音频信息,并对音频信息进行处理,从而得到音频的最终识别结果,但是,由于采集音频时,要采集的目标声源的位置和数量是不可控的,因此,采集过程中不可避免的要受到噪声的影响,从而降低了音频识别的准确度;其次,当存在多个声源时,现有的音频识别方案的识别效果也不理想,因此,如何提出一种音频识别系统,用以在噪声干扰或存在多个声源时依然获得很好的实时音频跟踪与处理能力,提高音频识别的准确度,是一亟待解决的技术问题。
发明内容
本发明提供一种音频识别系统,用以提高音频识别的准确度。
本发明提供一种音频识别系统,包括:
声源定向单元,用于从收集到的多路音频信号中确定入射角度为预设角度的N路音频信号;
卷积特征图获取组件,用于获取所述N路音频信号对应的N张卷积特征图;
梅尔倒谱系数获取组件,用于获取所述N路音频信号对应的N个梅尔频率倒谱系数特征;
全连接神经网络单元,用于根据所述卷积特征图获取组件获取到的N张特征图,以及所述梅尔倒谱系数获取组件获取到的N个梅尔频率倒谱系数特征计算所述N路音频信号的音频分类与识别结果。
本发明的有益效果在于:能够同时收集多路音频,实现多个声源音频的实时定向、实时跟踪以及实时识别,从而,在噪声干扰或存在多个声源时依然获得很好的实时音频跟踪与处理能力,提高音频识别的准确度。
在一个实施例中,所述系统还包括:
麦克风阵列单元,用于收集所述多路音频信号。
在一个实施例中,所述系统还包括:
音频处理组件,用于对所述音频信号进行处理,包括:
第一音频信号接收单元,用于接收所述麦克风阵列单元收集到的多路音频信号以及所述声源定向单元确定的所述N路音频信号;
音频增益单元,用于将所述声源定向单元确定的所述N路音频信号进行多倍增益;
音频抑制单元,用于将除所述N路音频信号之外的其他路音频信号进行抑制。
在一个实施例中,
所述音频增益单元和所述音频抑制单元中配置的算法为时间延迟波束形成算法与Frost波束形成算法。
在一个实施例中,所述系统还包括:
FFT计算组件,包括:
第二音频信号接收单元,用于接收进行多倍增益后的所述N路音频信号;
频谱计算单元,用于计算所述N路音频信号的频谱;
频谱发送单元,用于将计算的所述N路音频信号的频谱分别发送至所述卷积特征图获取组件和所述梅尔倒谱系数获取组件。
在一个实施例中,所述卷积特征图获取组件,包括:
语谱图计算单元,用于根据所述N路音频信号的频谱计算所述N路音频信号对应的N张语谱图;
图像选择器,用于逐一接收所述N张语谱图,并在接收到每张语谱图时将其发送至卷积神经网络单元;
卷积神经网络单元,用于在接收到所述语谱图时,根据每张语谱图计算每路音频信号对应的卷积特征图。
在一个实施例中,所述语谱图计算单元根据以下方式获得所述N路音频信号对应的N张语谱图:
将每路音频信号在预设时间内得到的频谱中的时间作为x轴,频率作为y轴,能量作为z轴进行数据放置;
当达到预设时间后,得到N张以x轴为图像宽,y轴为图像高,z轴为图像颜色的语谱图。
在一个实施例中,所述梅尔倒谱系数处理组件,包括:
梅尔频率倒谱系数单元,用于根据所述N路音频信号的频谱计算所述N路音频信号对应的N个梅尔频率倒谱系数特征;
数据选择器,用于逐一接收所述N个梅尔频率倒谱系数特征,并在接收到每个梅尔频率倒谱系数特征时将其发送至全连接神经网络单元。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明一实施例中音频识别系统的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明一实施例中音频识别系统的框图,如图1所示,该系统包括:
声源定向单元101,用于从收集到的多路音频信号中确定入射角度为预设角度的N路音频信号;
卷积特征图获取组件,用于获取所述N路音频信号对应的N张卷积特征图;
梅尔倒谱系数获取组件,用于获取所述N路音频信号对应的N个梅尔频率倒谱系数特征;
全连接神经网络单元102,用于根据所述卷积特征图获取组件获取到的N张特征图,以及所述梅尔倒谱系数获取组件获取到的N个梅尔频率倒谱系数特征计算所述N路音频信号的音频分类与识别结果。
本发明中,在声源定向单元101从多路音频信号中选取N路入射角度为预设角度的音频信号。
然后,卷积特征图获取组件获取N路音频信号对应的N张卷积特征图;
其中,卷积特征图获取组件可以包括语谱图计算单元106、图像选择器107以及卷积神经网络单元108。卷积特征图获取组件可以根据其包含的各个功能单元执行如下操作计算音频信号对应的卷积特征图:
首先,语谱图计算单元106根据所述N路音频信号的频谱计算所述N路音频信号对应的N张语谱图;然后图像选择器107逐一接收这N张语谱图,并在接收到每张语谱图时将其发送至卷积神经网络单元;卷积神经网络单元108在接收到这些语谱图时,根据每张语谱图计算每路音频信号对应的卷积特征图。
梅尔倒谱系数获取组件获取所述N路音频信号对应的N个梅尔频率倒谱系数特征;
在计算得到N路音频信号对应的N个卷积特征图以及N路音频信号对应的N个梅尔频率倒谱系数特征之后,全连接神经网络单元102,根据所述卷积特征图获取组件获取到的N张特征图,以及所述梅尔倒谱系数获取组件获取到的N个梅尔频率倒谱系数特征计算所述N路音频信号的音频分类与识别结果。具体过程如下:
对上一层计算的结果结合预训练的权重参数,经过特定激活函数进行计算,到达下一层。以上流程仅为计算1层的流程。其中全连接人工神经网络的层数为F层,F的范围为1至5层,F优选2层。
最后,全连接神经网络单元102根据卷积特征图获取组件获取到的N张特征图,以及所述梅尔倒谱系数获取组件获取到的N个梅尔频率倒谱系数特征计算所述N路音频信号的音频分类与识别结果111。
本发明的有益效果在于:该系统能够实现多个声源音频的实时定向、实时跟踪以及实时识别,从而,在噪声干扰或存在多个声源时依然获得很好的实时音频跟踪与处理能力,提高音频识别的准确度。
系统可还包括:
麦克风阵列单元103,用于收集所述多路音频信号。
系统还可包括:
音频处理组件104,用于对所述音频信号进行处理,包括:
第一音频信号接收单元,用于接收所述麦克风阵列单元收集到的多路音频信号以及所述声源定向单元确定的所述N路音频信号;
音频增益单元,用于将所述声源定向单元确定的所述N路音频信号进行多倍增益;
音频抑制单元,用于将除所述N路音频信号之外的其他路音频信号进行抑制。
其中,上述音频增益单元和所述音频抑制单元中配置的算法优选时间延迟波束形成(Time Delay Beamforming)算法与Frost波束形成(Frost Beamforming)算法。
使用这两种算法可以使N个(N优选值为8)方向上指向的音频信号获得多倍增益,并且使得其余方向上的背景噪音获得抑制。
其中Frost波束形成(Frost Beamforming)算法效果上优于时间延迟波束形成(Time Delay Beamforming)算法,而时间延迟波束形成(Time Delay Beamforming)算法在计算速度上优于Frost波束形成(Frost Beamforming)算法,系统可以根据应用场景的不同自动选择不同的算法。
系统还可包括:
FFT计算组件105,包括:
第二音频信号接收单元,用于接收进行多倍增益后的所述N路音频信号;
频谱计算单元,用于计算所述N路音频信号的频谱;
频谱发送单元,用于将计算的所述N路音频信号的频谱分别发送至所述卷积特征图获取组件和所述梅尔倒谱系数获取组件。
FFT计算组件105中的第二音频信号接收单元接收多倍增益后的N路音频信号,频谱计算单元对多倍增益后的N路音频信号进行FFT(fastFouriertransform,快速傅里叶变换)计算,得出N路音频信号的频谱,频谱的频率范围为0kHz至10kHz。当音频信息为语音类信息时,其中优选0kHz至3kHz为语音类应用的配置。在计算出N路音频信号的频谱之后,频谱发送单元将计算的所述N路音频信号的频谱分别发送至所述卷积特征图获取组件和所述梅尔倒谱系数获取组件。
所述卷积特征图获取组件,包括:
语谱图计算单元106,用于根据所述N路音频信号的频谱计算所述N路音频信号对应的N张语谱图;
图像选择器107,用于逐一接收所述N张语谱图,并在接收到每张语谱图时将其发送至卷积神经网络单元;
卷积神经网络单元108,用于在接收到所述语谱图时,根据每张语谱图计算每路音频信号对应的卷积特征图。
也即,卷积特征图获取组件可以根据其包含的各个功能单元执行如下操作计算音频信号对应的卷积特征图:
语谱图计算单元106根据所述N路音频信号的频谱计算所述N路音频信号对应的N张语谱图;然后图像选择器107逐一接收这N张语谱图,并在接收到每张语谱图时将其发送至卷积神经网络单元;卷积神经网络单元108在接收到这些语谱图时,根据每张语谱图计算每路音频信号对应的卷积特征图。
上述卷积神经网络单元108使用的算法为卷积人工神经网络算法。流程为使用预训练的权重对图像进行二维卷积计算,进行归一化处理,然后对数据进行偏置,使用特定的激活函数对卷积结果进行处理,进行池化。以上流程仅为计算1层的流程,实际上会进行L次上述操作,取决于实际应用所使用的卷积神经网络模型,L的范围是3至100,对应3层至100层的卷积人工神经网络。L优选20至22层。其中归一化计算是避免训练过程过拟合,加速训练速度。
其中,语谱图计算单元根据以下方式获得所述N路音频信号对应的N张语谱图:
将每路音频信号在预设时间内得到的频谱中的时间作为x轴,频率作为y轴,能量作为z轴进行数据放置;
当达到预设时间后,得到N张以x轴为图像宽,y轴为图像高,z轴为图像颜色的语谱图。
以语谱图计算单元106根据N路音频信号的频谱计算获得N张(N优选值为8)宽度为W,高度为H的语谱图为例:
其中W为经过的FFT时间窗数,范围为256至2048之间的任意整数(W优选1024),经历的总时间为D×W毫秒。而H为FFT所使用的点数,范围是集合{256,512,1024,2048}四个整数(H优选512点)。获得语谱图原理是将每次FFT计算的功率谱以时间为x轴,频率为y轴,能量为z轴进行数据放置,采集D乘W时间后,以x轴为图像宽,y轴为图像高,z轴为图像颜色,获得宽度为W,高度为H的彩色语谱图。
梅尔倒谱系数处理组件可包括:
梅尔频率倒谱系数单元109,用于根据所述N路音频信号的频谱计算所述N路音频信号对应的N个梅尔频率倒谱系数特征;
数据选择器110,用于逐一接收所述N个梅尔频率倒谱系数特征,并在接收到每个梅尔频率倒谱系数特征时将其发送至全连接神经网络单元。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种音频识别系统,其特征在于,包括:
声源定向单元,用于从收集到的多路音频信号中确定入射角度为预设角度的N路音频信号;
卷积特征图获取组件,用于获取所述N路音频信号对应的N张卷积特征图;
梅尔倒谱系数获取组件,用于获取所述N路音频信号对应的N个梅尔频率倒谱系数特征;
全连接神经网络单元,用于根据所述卷积特征图获取组件获取到的N张特征图,以及所述梅尔倒谱系数获取组件获取到的N个梅尔频率倒谱系数特征计算所述N路音频信号的音频分类与识别结果。
2.如权利要求1所述的系统,其特征在于,所述系统还包括:
麦克风阵列单元,用于收集所述多路音频信号。
3.如权利要求2所述的系统,其特征在于,所述系统还包括:
音频处理组件,用于对所述音频信号进行处理,包括:
第一音频信号接收单元,用于接收所述麦克风阵列单元收集到的多路音频信号以及所述声源定向单元确定的所述N路音频信号;
音频增益单元,用于将所述声源定向单元确定的所述N路音频信号进行多倍增益;
音频抑制单元,用于将除所述N路音频信号之外的其他路音频信号进行抑制。
4.如权利要求3所述的系统,其特征在于,
所述音频增益单元和所述音频抑制单元中配置的算法为时间延迟波束形成算法与Frost波束形成算法。
5.如权利要求3所述的系统,其特征在于,所述系统还包括:
FFT计算组件,包括:
第二音频信号接收单元,用于接收进行多倍增益后的所述N路音频信号;
频谱计算单元,用于计算所述N路音频信号的频谱;
频谱发送单元,用于将计算的所述N路音频信号的频谱分别发送至所述卷积特征图获取组件和所述梅尔倒谱系数获取组件。
6.如权利要求5所述的系统,其特征在于,所述卷积特征图获取组件,包括:
语谱图计算单元,用于根据所述N路音频信号的频谱计算所述N路音频信号对应的N张语谱图;
图像选择器,用于逐一接收所述N张语谱图,并在接收到每张语谱图时将其发送至卷积神经网络单元;
卷积神经网络单元,用于在接收到所述语谱图时,根据每张语谱图计算每路音频信号对应的卷积特征图。
7.如权利要求6所述的系统,其特征在于,所述语谱图计算单元根据以下方式获得所述N路音频信号对应的N张语谱图:
将每路音频信号在预设时间内得到的频谱中的时间作为x轴,频率作为y轴,能量作为z轴进行数据放置;
当达到预设时间后,得到N张以x轴为图像宽,y轴为图像高,z轴为图像颜色的语谱图。
8.如权利要求5所述的系统,其特征在于,所述梅尔倒谱系数处理组件,包括:
梅尔频率倒谱系数单元,用于根据所述N路音频信号的频谱计算所述N路音频信号对应的N个梅尔频率倒谱系数特征;
数据选择器,用于逐一接收所述N个梅尔频率倒谱系数特征,并在接收到每个梅尔频率倒谱系数特征时将其发送至全连接神经网络单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710766382.2A CN107527626A (zh) | 2017-08-30 | 2017-08-30 | 一种音频识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710766382.2A CN107527626A (zh) | 2017-08-30 | 2017-08-30 | 一种音频识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107527626A true CN107527626A (zh) | 2017-12-29 |
Family
ID=60682836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710766382.2A Pending CN107527626A (zh) | 2017-08-30 | 2017-08-30 | 一种音频识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107527626A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108269582A (zh) * | 2018-01-24 | 2018-07-10 | 厦门美图之家科技有限公司 | 一种基于双麦克风阵列的定向拾音方法及计算设备 |
CN108538311A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频分类方法、装置及计算机可读存储介质 |
CN108831492A (zh) * | 2018-05-21 | 2018-11-16 | 广州国音科技有限公司 | 一种处理语音数据的方法、装置、设备及可读存储介质 |
CN109166593A (zh) * | 2018-08-17 | 2019-01-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据处理方法、装置及存储介质 |
CN110875056A (zh) * | 2018-08-30 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 语音转录设备、系统、方法、及电子设备 |
CN111489762A (zh) * | 2020-05-13 | 2020-08-04 | 广州国音智能科技有限公司 | 三维语谱图生成方法、装置、终端及存储介质 |
CN112270933A (zh) * | 2020-11-12 | 2021-01-26 | 北京猿力未来科技有限公司 | 一种音频识别方法和装置 |
CN113539297A (zh) * | 2021-07-08 | 2021-10-22 | 中国海洋大学 | 一种用于声音分类的联合注意力机制模型、方法及应用 |
CN115324759A (zh) * | 2022-10-12 | 2022-11-11 | 南通普盛动力有限公司 | 柴油发动机喷油嘴异常识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008064892A (ja) * | 2006-09-05 | 2008-03-21 | National Institute Of Advanced Industrial & Technology | 音声認識方法およびそれを用いた音声認識装置 |
US20100217590A1 (en) * | 2009-02-24 | 2010-08-26 | Broadcom Corporation | Speaker localization system and method |
CN103811020A (zh) * | 2014-03-05 | 2014-05-21 | 东北大学 | 一种智能语音处理方法 |
CN106028227A (zh) * | 2016-07-08 | 2016-10-12 | 乐鑫信息科技(上海)有限公司 | 分布式麦克风阵列及其适用的声源定位系统 |
CN106371057A (zh) * | 2016-09-07 | 2017-02-01 | 北京声智科技有限公司 | 语音声源测向方法及装置 |
CN106782501A (zh) * | 2016-12-28 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法和装置 |
-
2017
- 2017-08-30 CN CN201710766382.2A patent/CN107527626A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008064892A (ja) * | 2006-09-05 | 2008-03-21 | National Institute Of Advanced Industrial & Technology | 音声認識方法およびそれを用いた音声認識装置 |
US20100217590A1 (en) * | 2009-02-24 | 2010-08-26 | Broadcom Corporation | Speaker localization system and method |
CN103811020A (zh) * | 2014-03-05 | 2014-05-21 | 东北大学 | 一种智能语音处理方法 |
CN106028227A (zh) * | 2016-07-08 | 2016-10-12 | 乐鑫信息科技(上海)有限公司 | 分布式麦克风阵列及其适用的声源定位系统 |
CN106371057A (zh) * | 2016-09-07 | 2017-02-01 | 北京声智科技有限公司 | 语音声源测向方法及装置 |
CN106782501A (zh) * | 2016-12-28 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法和装置 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108269582A (zh) * | 2018-01-24 | 2018-07-10 | 厦门美图之家科技有限公司 | 一种基于双麦克风阵列的定向拾音方法及计算设备 |
CN108538311A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频分类方法、装置及计算机可读存储介质 |
CN108831492A (zh) * | 2018-05-21 | 2018-11-16 | 广州国音科技有限公司 | 一种处理语音数据的方法、装置、设备及可读存储介质 |
CN109166593A (zh) * | 2018-08-17 | 2019-01-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据处理方法、装置及存储介质 |
CN110875056A (zh) * | 2018-08-30 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 语音转录设备、系统、方法、及电子设备 |
CN110875056B (zh) * | 2018-08-30 | 2024-04-02 | 阿里巴巴集团控股有限公司 | 语音转录设备、系统、方法、及电子设备 |
CN111489762B (zh) * | 2020-05-13 | 2023-06-16 | 广州国音智能科技有限公司 | 三维语谱图生成方法、装置、终端及存储介质 |
CN111489762A (zh) * | 2020-05-13 | 2020-08-04 | 广州国音智能科技有限公司 | 三维语谱图生成方法、装置、终端及存储介质 |
CN112270933A (zh) * | 2020-11-12 | 2021-01-26 | 北京猿力未来科技有限公司 | 一种音频识别方法和装置 |
CN112270933B (zh) * | 2020-11-12 | 2024-03-12 | 北京猿力未来科技有限公司 | 一种音频识别方法和装置 |
CN113539297A (zh) * | 2021-07-08 | 2021-10-22 | 中国海洋大学 | 一种用于声音分类的联合注意力机制模型、方法及应用 |
CN115324759B (zh) * | 2022-10-12 | 2022-12-27 | 南通普盛动力有限公司 | 柴油发动机喷油嘴异常识别方法 |
CN115324759A (zh) * | 2022-10-12 | 2022-11-11 | 南通普盛动力有限公司 | 柴油发动机喷油嘴异常识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107527626A (zh) | 一种音频识别系统 | |
CN104076331B (zh) | 一种七元麦克风阵列的声源定位方法 | |
CN109001679B (zh) | 一种基于卷积神经网络的室内声源区域定位方法 | |
CN106023996B (zh) | 基于十字形声阵列宽带波束形成的声识别方法 | |
CN107689223A (zh) | 一种音频识别方法及装置 | |
CN106504763A (zh) | 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法 | |
Pertilä et al. | Distant speech separation using predicted time–frequency masks from spatial features | |
CN111031463B (zh) | 麦克风阵列性能评测方法、装置、设备和介质 | |
CN112904279A (zh) | 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 | |
Cai et al. | Multi-Channel Training for End-to-End Speaker Recognition Under Reverberant and Noisy Environment. | |
CN110234043A (zh) | 基于麦克风阵列的声音信号处理方法、装置及设备 | |
KR20210137146A (ko) | 큐의 클러스터링을 사용한 음성 증강 | |
Chen et al. | An end-to-end deep learning framework for multiple audio source separation and localization | |
Hosseini et al. | Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function | |
Sarabia et al. | Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning | |
CN113077812B (zh) | 语音信号生成模型训练方法、回声消除方法和装置及设备 | |
CN110333484A (zh) | 基于环境背景声感知与分析的室内区域级定位方法 | |
CN112269158B (zh) | 一种基于unet结构利用传声器阵列语音源定位方法 | |
CN110838303B (zh) | 一种利用传声器阵列的语音声源定位方法 | |
Boztas | Sound source localization for auditory perception of a humanoid robot using deep neural networks | |
Pirhosseinloo et al. | A new feature set for masking-based monaural speech separation | |
CN117782625A (zh) | 车辆故障声学检测方法、系统、控制装置及存储介质 | |
CN111696573A (zh) | 声源信号处理方法及装置、电子设备和存储介质 | |
Bicer et al. | Explainable acoustic scene classification: Making decisions audible | |
CN110930991A (zh) | 一种远场语音识别模型训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20201112 Address after: Room 206, 2 / F, building C, phase I, Zhongguancun Software Park, No. 8, Dongbei Wangxi Road, Haidian District, Beijing 100094 Applicant after: Canaan Bright Sight Co.,Ltd. Address before: 100094, No. 3, building 23, building 8, northeast Wang Xi Road, Beijing, Haidian District, 307 Applicant before: Canaan Creative Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171229 |
|
RJ01 | Rejection of invention patent application after publication |