CN111798875A - 一种基于三值量化压缩的vad实现方法 - Google Patents
一种基于三值量化压缩的vad实现方法 Download PDFInfo
- Publication number
- CN111798875A CN111798875A CN202010704640.6A CN202010704640A CN111798875A CN 111798875 A CN111798875 A CN 111798875A CN 202010704640 A CN202010704640 A CN 202010704640A CN 111798875 A CN111798875 A CN 111798875A
- Authority
- CN
- China
- Prior art keywords
- data
- frame
- audio
- voice
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013139 quantization Methods 0.000 title claims abstract description 31
- 230000006835 compression Effects 0.000 title claims abstract description 18
- 238000007906 compression Methods 0.000 title claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 238000009432 framing Methods 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims description 15
- 238000013499 data model Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000037433 frameshift Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000001737 promoting effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 9
- 238000001514 detection method Methods 0.000 abstract description 5
- 238000001914 filtration Methods 0.000 abstract description 4
- 238000003062 neural network model Methods 0.000 abstract description 4
- 210000002569 neuron Anatomy 0.000 description 12
- 241000282414 Homo sapiens Species 0.000 description 10
- 210000003128 head Anatomy 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于三值量化压缩的VAD实现方法,主要包括数据预处理、神经网络和量化处理部分三个部分,首先对纯净人声数据与噪声数据按不同信噪比进行融合得到原始数据集,然后进行预处理使其数据符合神经网络的计算需求,预处理包括语音信号的预加重、分帧、加窗、短时快速傅里叶变换(FFT)、计算不同FFT子带的能量、梅尔滤波、dct变换、lifter变换等;然后通过神经网络进行数据训练,再对训练完成的神经网络模型进行量化压缩,减少其占用存储空间大小。本发明不仅优化了语音数据处理,而且降低了成本,使得经精确计算后能识别清晰语音信息。
Description
技术领域
本发明涉及音频处理技术领域,具体涉及一种基于三值量化压缩的VAD实现方法。
背景技术
区分人声语音与噪音是现有音频处理领域的一个重点,也是难点。
现有的技术中,在特征提取过程中采用多分辨率耳蜗谱图MRCG (Multi-Resolution Cochleagram)特征。对预先处理好的噪声与人声混合的数据集音频计算输入信号的gammatone系数g,gammatone是一组模拟人耳特性的滤波器,滤波器的个数n决定最后特征的维度。
然后采用两种不用的帧长和帧移计算g的cochleagram之后取log10得到耳蜗图谱c1,c2。然后利用get_avg函数计算c1的5*5、11*11模糊图,得到耳蜗图谱c3,c4。然后将四个耳蜗图串联[c1;c2;c3;c4]得到all_cochleas。接下来对all_cochleas求一阶导和二阶导,分别得到del和ddel。最后将三个串联得到最后特征[all_cochleas,del,ddel],特征的维度是n*4*3。
将这些MRCG特征视为神经网络的输入来训练模型;神经网络则采用深度神经网络(DNN),将上一层输入的MRCG特征通过深度神经网络(DNN)中,对音频信号的每一帧特征数据进行处理,并且将DNN的计算结果经过softmax函数来计算语音/非语音的后验概率,概率值在(0,1)之间,大于设定阈值即可认定为是语音,小于阈值则认定为非语音。
发明内容
基于此,针对上述问题,有必要提出一种基于三值量化压缩的VAD实现方法,能从带有噪声的语音中准确的定位出语音的开始和结束点,主要对麦克风中录到的音频进行处理,识别其中的语音部分,并删去非语音部分。
本发明的技术方案是:
一种基于三值量化压缩的VAD实现方法,包括以下步骤:
A、提取人声数据及噪音数据,按预设定的信噪比结合,得到训练音频数据;
B、针对每一帧训练音频数据提取MFCC特征后,经拼接得到最终特征数据;
C、拼接多帧特征数据,输入神经网络进行数据训练;
D、接收训练后的数据模型,进行三值量化处理;
E、利用相同训练数据,训练三值化bDNN后,提取并保存其权重、参数。
在本技术方案中,采用了三值量化压缩的VAD实现方法(Ternary Voice ActivityDetection),以下简称TVAD,主要包括数据预处理、神经网络(Neural Network)和量化处理部分三个部分。
数据预处理,是指对于纯净人声数据与噪声数据进行按不同信噪比进行融合得到原始数据集,然后进行预处理使其数据符合神经网络的计算需求;其中,数据预处理主要步骤包括:语音信号的预加重、分帧、加窗、短时快速傅里叶变换(FFT)、计算不同FFT子带的能量、梅尔滤波、dct变换、lifter变换等。
神经网络(Neural Network,NN)是人类基于人类大脑的神经网络设计出来的一种数学模型,用以模拟人脑的功能实现类人工智能。神经网络是一种运算模型,由大量的神经元之间相互联接构成。每个神经元代表一种特定的输出函数,称为激活函数(activationfunction)。每两个神经元间的连接都表示一个对于通过该连接信号的加权值,称之为权重。这个权重的大小会随着神经元之间连接的重要性改变而改变。在得到上一层神经元的加权和之后,加权和会经过一个激活函数,最后得到当前神经元的输出。
本方案,网络结构为输入层、三个隐层、输出层;其目前的参数数目为输入层为24*5,三个隐层是128*64*32,输出层为5维。隐藏层的维度可自由调节以便获取更好的预测结果。
量化处理部分,是指对于神经网络的进行三值量化压缩从而降低神经网络模型所需要的存储空间。
优选的,还包括以下步骤:
F、提取人声数据及噪音数据,按预设定的信噪比结合,获取测试音频数据;
G、针对每一帧测试音频数据提取MFCC特征后,经拼接得到最终特征数据;
H、拼接多帧特征数据,输入神经网络进行数据训练;
I、进行三值化bDNN,计算待预测帧的预测值,待批量预测结束后,将所有预测中包含待预测帧的结果求平均值,得到当前帧的最终预测值。
本技术方案,分为训练部分和测试部分,训练部分与测试部分中对输入神经网络的特征数据的处理方式相同,但测试部分在进行神经网络训练并经过三值化bDNN后会得到待预测帧的预测结果,等批量预测结束后将所有预测中包含待预测帧的结果求平均值即得到当前帧的最终预测结果。如图4所示,其中,每一行中虚线框中就是含有待预测帧的结果,将其取平均值,则得到待预测帧的最终预测结果。
优选的,所述步骤I还包括以下步骤:
判断最终预测值是否大于设定阈值,若是,则判定待预测帧含语音,反之,则不含语音。
比较得到的待预测帧的最终预测结果与设定阈值的大小,大于设定阈值的即可认为含语音,小于阈值则认为不含语音。
优选的,所述步骤I还包括以下步骤:
计算AUC值作为评估标准,AUC值取值为(0,1)。
计算AUC值可以解决因为正负样本不均导致的问题,能够更好地反应模型的性能,AUC值取值为(0,1),越接近于1表示预测效果越好。
优选的,所述步骤I还包括以下步骤:
将测试音频的波形与预测结果进行可视化展示。
将预测值和波形图进行可视化直观展示模型,区别语音与非语音的效果。
优选的,所述步骤A和步骤F中混合人声数据及噪音数据的步骤还包括:
P1、构造噪声数据列表与语料数据列表;
P2、设定每段音频的长度为L,从步骤S1中的噪声列表中随机选择音频进行串联,直到长度达到L;
P3、从步骤S1中的语料数据列表中随机选取一段音频,在所选取的音频首尾各添加音频总长度1/4的静音,重复选取至长度达到L;
P4、将选取的音频与噪声按预设定的信噪比结合,获取音频数据。
本方案中P3步骤可在所选取的音频首尾各添加音频总长度1/4的静音,亦可在所选取的音频首尾各添加4秒的静音,具体以添加静音时间更短的方案为最优。
优选的,所述步骤B和步骤G中提取MFCC特征的步骤还包括:
Q1、对每一帧音频数据进行预加重,其中预加重因子取0.97;
Q2、对每一帧音频数据进行分帧,设定帧长为32ms,帧移为16ms;
Q3、基于汉明窗函数进行加窗,汉明窗函数如下:
Q4、进行快速傅里叶变换,将信号分离到不同的子带;
Q5、计算不同子带的能量;
Q6、生成相应的梅尔滤波器对子带进行滤波,梅尔滤波函数如下:
Q7、计算每个梅尔滤波器输出的对数能量;
Q8、经离散余弦变换,得到MFCC系数;
Q9、提取一阶差分参数;
Q10、将MFCC系数与其一阶差分参数拼接,得到最终特征数据。
优选的,所述步骤C和步骤H中拼接多帧特征数据的步骤包括:
S1、获取每一帧最终特征数据;
S2、提升每一帧的上下文信息,生成每一帧上的多个基预测;
S3、拼接包括待预测帧在内的5帧特征数据,输入神经网络进行数据训练。
本方案使用待预测帧的相邻帧来联合预测待预测帧,通过提升帧的上下文信息来生成帧上的多个基预测,然后将基础预测聚合为更强的基础预测,相比于传统的DNN能实现更高的性能。
在本方案中,取包含待预测帧在内的5帧特征数据拼接起来作为一组输入数据送入神经网络中进行训练,对于第一帧数据,我们在其前面补零,如图5所示,其中:每个方框代表一帧数据,其中虚线方框表示5帧数据拼接,xn表示待预测帧,当xn是输入数据第一帧时,由于算法需要其前面帧的数据,所以在此对其做补零处理,对待预测帧前面补10帧,数据为0。最终得到5帧特征数据共5*24=120维数据,送入神经网络作训练处理。
优选的,所述步骤D中进行三值量化的步骤包括:
D1、接收训练后的数据模型,从该数据模型的矩阵中,计算得出阈值Δ和缩放因子α,计算公式如下:
其中,IΔ={1≤i≤n||Wi>Δ|},|IΔ|表示IΔ中的元素;
D2、将原权重转变为三值权重,三值权重公式如下:
D3、将输入X与缩放因子α相乘作为新的输入数据,并与三值权重进行加法计算进行正向传播;
D4、使用SGD算法反向传播进行迭代训练。
其中,阈值Δ从原权重矩阵W中产生,通过推导,其值为:
α的值为:
其中:IΔ={1≤i≤n||Wi>Δ|},|IΔ|表示IΔ中的元素。
这里的阈值Δ与比例系数α都是针对每一层的权重来考虑的,也就是说每一层都有独立的阈值Δ与比例系数α。
本发明的有益效果是:
1、相比较使用通用公开噪声和人声数据集来训练,本方案的训练数据集中的噪声数据部分专门定制,数据量更多,覆盖面更广,对于人声数据部分,不仅包含通用公开数据集部分,还对各种场景定制了一些干净人声,对各种环境的鲁棒性更强。
2、不同于基于DNN的VAD方法只关注当前帧信息,本方法考虑到了相邻帧的信息对当前帧VAD的判决的影响,将当前帧和前后相邻帧的特征向量连接在一起,对应的判决标记也合并成一个向量连接起来,用于神经网络训练。
3、不同于MRCG特征,本方法提取语音的MFCC特征,在计算完FFT子带的能量并做梅尔滤波之后,进行dct变换和lifter变换得到MFCC特征,并且对提取到的MFCC特征舍去其直流分量,并求其一阶差分,得到MFCC-delta特征,最后将MFCC和MFCC-delta特征拼接起来作为送入神经网络处理的特征。
4、本方法对训练完成的神经网络模型进行量化压缩,减少其占用存储空间大小。
5、本方法不仅节约了成本,提高了处理效率,同时也能精确的从带有噪声的语音中准确的定位出语音的开始和结束点,识别其中的语音部分,并删去非语音部分。
附图说明
图1是本发明实施例所述基于三值量化压缩的VAD实现方法训练流程图;
图2是本发明实施例所述基于三值量化压缩的VAD实现方法测试流程图;
图3是本发明实施例所述的三值量化操作流程图;
图4是本发明实施例所述的将所有预测中包含待预测帧的结果求平均值得到当前帧的最终预测结果的示意图;
图5是本发明实施例所述的将特征数据拼接作为输入数据的示意图。
具体实施方式
下面结合附图对本发明的实施例进行详细说明。
实施例
如图1所示,一种基于三值量化压缩的VAD实现方法,包括以下步骤:
A、提取人声数据及噪音数据,按预设定的信噪比结合,得到训练音频数据;
B、针对每一帧训练音频数据提取MFCC特征后,经拼接得到最终特征数据;
C、拼接多帧特征数据,输入神经网络进行数据训练;
D、接收训练后的数据模型,进行三值量化处理;
E、利用相同训练数据,训练三值化bDNN后,提取并保存其权重、参数。
在本实施例中,采用了三值量化压缩的VAD实现方法(Ternary Voice ActivityDetection),以下简称TVAD,主要包括数据预处理、神经网络(Neural Network)和量化处理部分三个部分。
数据预处理,是指对于纯净人声数据与噪声数据进行按不同信噪比进行融合得到原始数据集,然后进行预处理使其数据符合神经网络的计算需求;其中,数据预处理主要步骤包括:语音信号的预加重、分帧、加窗、短时快速傅里叶变换(FFT)、计算不同FFT子带的能量、梅尔滤波、dct变换、lifter变换等。
神经网络(Neural Network,NN)是人类基于人类大脑的神经网络设计出来的一种数学模型,用以模拟人脑的功能实现类人工智能。神经网络是一种运算模型,由大量的神经元之间相互联接构成。每个神经元代表一种特定的输出函数,称为激活函数(activationfunction)。每两个神经元间的连接都表示一个对于通过该连接信号的加权值,称之为权重。这个权重的大小会随着神经元之间连接的重要性改变而改变。在得到上一层神经元的加权和之后,加权和会经过一个激活函数,最后得到当前神经元的输出。
本实施例,网络结构为输入层、三个隐层、输出层;其目前的参数数目为输入层为24*5,三个隐层是128*64*32,输出层为5维。隐藏层的维度可自由调节以便获取更好的预测结果。
量化处理部分,是指对于神经网络的进行三值量化压缩从而降低神经网络模型所需要的存储空间。
在其中一个实施例中,如图2所示,还包括以下步骤:
F、提取人声数据及噪音数据,按预设定的信噪比结合,获取测试音频数据;
G、针对每一帧测试音频数据提取MFCC特征后,经拼接得到最终特征数据;
H、拼接多帧特征数据,输入神经网络进行数据训练;
I、进行三值化bDNN,计算待预测帧的预测值,待批量预测结束后,将所有预测中包含待预测帧的结果求平均值,得到当前帧的最终预测值。
本实施例,分为训练部分和测试部分,训练部分与测试部分中对输入神经网络的特征数据的处理方式相同,但测试部分在进行神经网络训练并经过三值化 bDNN后会得到待预测帧的预测结果,等批量预测结束后将所有预测中包含待预测帧的结果求平均值即得到当前帧的最终预测结果。如图4所示,其中,每一行中虚线框中就是含有待预测帧的结果,将其取平均值,则得到待预测帧的最终预测结果。
在另一个实施例中,如图2所示,所述步骤I还包括以下步骤:
判断最终预测值是否大于设定阈值,若是,则判定待预测帧含语音,反之,则不含语音。
比较得到的待预测帧的最终预测结果与设定阈值的大小,大于设定阈值的即可认为含语音,小于阈值则认为不含语音。
在另一个实施例中,如图2所示,所述步骤I还包括以下步骤:
计算AUC值作为评估标准,AUC值取值为(0,1)。
计算AUC值可以解决因为正负样本不均导致的问题,能够更好地反应模型的性能,AUC值取值为(0,1),越接近于1表示预测效果越好。
在另一个实施例中,如图2所示,所述步骤I还包括以下步骤:
将测试音频的波形与预测结果进行可视化展示。
将预测值和波形图进行可视化直观展示模型,区别语音与非语音的效果。
在另一个实施例中,所述步骤A和步骤F中混合人声数据及噪音数据的步骤还包括:
P1、构造噪声数据列表与语料数据列表;
P2、设定每段音频的长度为L,从步骤S1中的噪声列表中随机选择音频进行串联,直到长度达到L;
P3、从步骤S1中的语料数据列表中随机选取一段音频,在所选取的音频首尾各添加音频总长度1/4的静音,重复选取至长度达到L;
P4、将选取的音频与噪声按预设定的信噪比结合,获取音频数据。
本实施例中P3步骤可在所选取的音频首尾各添加音频总长度1/4的静音,亦可在所选取的音频首尾各添加4秒的静音,具体以添加静音时间更短的方案为最优。
在另一个实施例中,所述步骤B和步骤G中提取MFCC特征的步骤还包括:
Q1、对每一帧音频数据进行预加重,其中预加重因子取0.97;
Q2、对每一帧音频数据进行分帧,设定帧长为32ms,帧移为16ms;
Q3、基于汉明窗函数进行加窗,汉明窗函数如下:
Q4、进行快速傅里叶变换,将信号分离到不同的子带;
Q5、计算不同子带的能量;
Q6、生成相应的梅尔滤波器对子带进行滤波,梅尔滤波函数如下:
Q7、计算每个梅尔滤波器输出的对数能量;
Q8、经离散余弦变换,得到MFCC系数;
Q9、提取一阶差分参数;
Q10、将MFCC系数与其一阶差分参数拼接,得到最终特征数据。
在另一个实施例中,所述步骤C和步骤H中拼接多帧特征数据的步骤包括:
S1、获取每一帧最终特征数据;
S2、提升每一帧的上下文信息,生成每一帧上的多个基预测;
S3、拼接包括待预测帧在内的5帧特征数据,输入神经网络进行数据训练。
本实施例使用待预测帧的相邻帧来联合预测待预测帧,通过提升帧的上下文信息来生成帧上的多个基预测,然后将基础预测聚合为更强的基础预测,相比于传统的DNN能实现更高的性能。
在本实施例中,取包含待预测帧在内的5帧特征数据拼接起来作为一组输入数据送入神经网络中进行训练,对于第一帧数据,我们在其前面补零,如图5 所示,其中:每个方框代表一帧数据,其中虚线方框表示5帧数据拼接,xn表示待预测帧,当xn是输入数据第一帧时,由于算法需要其前面帧的数据,所以在此对其做补零处理,对待预测帧前面补10帧,数据为0。最终得到5帧特征数据共5*24=120维数据,送入神经网络作训练处理。
在另一个实施例中,如图3所示,所述步骤D中进行三值量化的步骤包括:
D1、接收训练后的数据模型,从该数据模型的矩阵中,计算得出阈值Δ和缩放因子α,计算公式如下:
其中,IΔ={1≤i≤n||Wi>Δ|},|IΔ|表示IΔ中的元素;
D2、将原权重转变为三值权重,三值权重公式如下:
D3、将输入X与缩放因子α相乘作为新的输入数据,并与三值权重进行加法计算进行正向传播;
D4、使用SGD算法反向传播进行迭代训练。
本实施例中,三值量化方法可以将权重从32bit浮点型量化为2bit定点型,即将原始浮点型权重用三值权重(-1,0,+1)与一个比例系数α相乘来近似表示。即:
其中,阈值Δ从原权重矩阵W中产生,通过推导,其值为:
α的值为:
其中:IΔ={1≤i≤n||Wi>Δ|},|IΔ|表示IΔ中的元素。
这里的阈值Δ与比例系数α都是针对每一层的权重来考虑的,也就是说每一层都有独立的阈值Δ与比例系数α。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (9)
1.一种基于三值量化压缩的VAD实现方法,其特征在于,包括以下步骤:
A、提取人声数据及噪音数据,按预设定的信噪比结合,得到训练音频数据;
B、针对每一帧训练音频数据提取MFCC特征后,经拼接得到最终特征数据;
C、拼接多帧特征数据,输入神经网络进行数据训练;
D、接收训练后的数据模型,进行三值量化处理;
E、利用相同训练数据,训练三值化bDNN后,提取并保存其权重、参数。
2.根据权利要求1所述的基于三值量化压缩的VAD实现方法,其特征在于,还包括以下步骤:
F、提取人声数据及噪音数据,按预设定的信噪比结合,获取测试音频数据;
G、针对每一帧测试音频数据提取MFCC特征后,经拼接得到最终特征数据;
H、拼接多帧特征数据,输入神经网络进行数据训练;
I、进行三值化bDNN,计算待预测帧的预测值,待批量预测结束后,将所有预测中包含待预测帧的结果求平均值,得到当前帧的最终预测值。
3.根据权利要求2所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤I还包括以下步骤:
判断最终预测值是否大于设定阈值,若是,则判定待预测帧含语音,反之,则不含语音。
4.根据权利要求3所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤I还包括以下步骤:
计算AUC值作为评估标准,AUC值取值为(0,1)。
5.根据权利要求4所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤I还包括以下步骤:
将测试音频的波形与预测结果进行可视化展示。
6.根据权利要求2所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤A和步骤F中混合人声数据及噪音数据的步骤还包括:
P1、构造噪声数据列表与语料数据列表;
P2、设定每段音频的长度为L,从步骤S1中的噪声列表中随机选择音频进行串联,直到长度达到L;
P3、从步骤S1中的语料数据列表中随机选取一段音频,在所选取的音频首尾各添加音频总长度1/4的静音,重复选取至长度达到L;
P4、将选取的音频与噪声按预设定的信噪比结合,获取音频数据。
7.根据权利要求2所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤B和步骤G中提取MFCC特征的步骤还包括:
Q1、对每一帧音频数据进行预加重,其中预加重因子取0.97;
Q2、对每一帧音频数据进行分帧,设定帧长为32ms,帧移为16ms;
Q3、基于汉明窗函数进行加窗,汉明窗函数如下:
Q4、进行快速傅里叶变换,将信号分离到不同的子带;
Q5、计算不同子带的能量;
Q6、生成相应的梅尔滤波器对子带进行滤波,梅尔滤波函数如下:
Q7、计算每个梅尔滤波器输出的对数能量;
Q8、经离散余弦变换,得到MFCC系数;
Q9、提取一阶差分参数;
Q10、将MFCC系数与其一阶差分参数拼接,得到最终特征数据。
8.根据权利要求2所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤C和步骤H中拼接多帧特征数据的步骤包括:
S1、获取每一帧最终特征数据;
S2、提升每一帧的上下文信息,生成每一帧上的多个基预测;
S3、拼接包括待预测帧在内的5帧特征数据,输入神经网络进行数据训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010704640.6A CN111798875A (zh) | 2020-07-21 | 2020-07-21 | 一种基于三值量化压缩的vad实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010704640.6A CN111798875A (zh) | 2020-07-21 | 2020-07-21 | 一种基于三值量化压缩的vad实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111798875A true CN111798875A (zh) | 2020-10-20 |
Family
ID=72808060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010704640.6A Pending CN111798875A (zh) | 2020-07-21 | 2020-07-21 | 一种基于三值量化压缩的vad实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111798875A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669852A (zh) * | 2020-12-15 | 2021-04-16 | 北京百度网讯科技有限公司 | 内存分配方法、装置及电子设备 |
CN113327589A (zh) * | 2021-06-10 | 2021-08-31 | 杭州芯声智能科技有限公司 | 一种基于姿态传感器的语音活动检测方法 |
CN113345423A (zh) * | 2021-06-24 | 2021-09-03 | 科大讯飞股份有限公司 | 语音端点检测方法、装置、电子设备和存储介质 |
CN113408704A (zh) * | 2021-06-29 | 2021-09-17 | 深圳市商汤科技有限公司 | 数据处理方法、装置、设备及计算机可读存储介质 |
CN113555028A (zh) * | 2021-07-19 | 2021-10-26 | 首约科技(北京)有限公司 | 一种用于车联网语音降噪的处理方法 |
CN115457984A (zh) * | 2022-07-28 | 2022-12-09 | 杭州芯声智能科技有限公司 | 一种基于骨声纹传感器的vad方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392310A (zh) * | 2016-05-16 | 2017-11-24 | 北京陌上花科技有限公司 | 神经网络模型训练方法及装置 |
CN108496188A (zh) * | 2017-05-31 | 2018-09-04 | 深圳市大疆创新科技有限公司 | 神经网络训练的方法、装置、计算机系统和可移动设备 |
US20180314940A1 (en) * | 2017-04-28 | 2018-11-01 | Intel Corporation | Incremental precision networks using residual inference and fine-grain quantization |
CN109545227A (zh) * | 2018-04-28 | 2019-03-29 | 华中师范大学 | 基于深度自编码网络的说话人性别自动识别方法及系统 |
CN110148408A (zh) * | 2019-05-29 | 2019-08-20 | 上海电力学院 | 一种基于深度残差的中文语音识别方法 |
CN110365970A (zh) * | 2019-07-10 | 2019-10-22 | 广州瀚信通信科技股份有限公司 | 一种基于监督学习评估终端VoLTE视频通话感知方法 |
-
2020
- 2020-07-21 CN CN202010704640.6A patent/CN111798875A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392310A (zh) * | 2016-05-16 | 2017-11-24 | 北京陌上花科技有限公司 | 神经网络模型训练方法及装置 |
US20180314940A1 (en) * | 2017-04-28 | 2018-11-01 | Intel Corporation | Incremental precision networks using residual inference and fine-grain quantization |
CN108496188A (zh) * | 2017-05-31 | 2018-09-04 | 深圳市大疆创新科技有限公司 | 神经网络训练的方法、装置、计算机系统和可移动设备 |
CN109545227A (zh) * | 2018-04-28 | 2019-03-29 | 华中师范大学 | 基于深度自编码网络的说话人性别自动识别方法及系统 |
CN110148408A (zh) * | 2019-05-29 | 2019-08-20 | 上海电力学院 | 一种基于深度残差的中文语音识别方法 |
CN110365970A (zh) * | 2019-07-10 | 2019-10-22 | 广州瀚信通信科技股份有限公司 | 一种基于监督学习评估终端VoLTE视频通话感知方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669852A (zh) * | 2020-12-15 | 2021-04-16 | 北京百度网讯科技有限公司 | 内存分配方法、装置及电子设备 |
CN112669852B (zh) * | 2020-12-15 | 2023-01-31 | 北京百度网讯科技有限公司 | 内存分配方法、装置及电子设备 |
US12158839B2 (en) | 2020-12-15 | 2024-12-03 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for allocating memory and electronic device |
CN113327589A (zh) * | 2021-06-10 | 2021-08-31 | 杭州芯声智能科技有限公司 | 一种基于姿态传感器的语音活动检测方法 |
CN113345423A (zh) * | 2021-06-24 | 2021-09-03 | 科大讯飞股份有限公司 | 语音端点检测方法、装置、电子设备和存储介质 |
CN113345423B (zh) * | 2021-06-24 | 2024-02-13 | 中国科学技术大学 | 语音端点检测方法、装置、电子设备和存储介质 |
CN113408704A (zh) * | 2021-06-29 | 2021-09-17 | 深圳市商汤科技有限公司 | 数据处理方法、装置、设备及计算机可读存储介质 |
CN113555028A (zh) * | 2021-07-19 | 2021-10-26 | 首约科技(北京)有限公司 | 一种用于车联网语音降噪的处理方法 |
CN113555028B (zh) * | 2021-07-19 | 2024-08-02 | 首约科技(北京)有限公司 | 一种用于车联网语音降噪的处理方法 |
CN115457984A (zh) * | 2022-07-28 | 2022-12-09 | 杭州芯声智能科技有限公司 | 一种基于骨声纹传感器的vad方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Monaural speech dereverberation using temporal convolutional networks with self attention | |
CN111798875A (zh) | 一种基于三值量化压缩的vad实现方法 | |
CN109326299B (zh) | 基于全卷积神经网络的语音增强方法、装置及存储介质 | |
CN108922513B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
JP2020515877A (ja) | ささやき声変換方法、装置、デバイス及び可読記憶媒体 | |
CN108597496A (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
EP3899936B1 (en) | Source separation using an estimation and control of sound quality | |
CN111785288B (zh) | 语音增强方法、装置、设备及存储介质 | |
KR101807961B1 (ko) | Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치 | |
EP2559026A1 (en) | Audio communication device, method for outputting an audio signal, and communication system | |
Braun et al. | Effect of noise suppression losses on speech distortion and ASR performance | |
CN108877823A (zh) | 语音增强方法和装置 | |
CN111312292A (zh) | 基于语音的情绪识别方法、装置、电子设备及存储介质 | |
CN114338623B (zh) | 音频的处理方法、装置、设备及介质 | |
Geng et al. | End-to-end speech enhancement based on discrete cosine transform | |
JP2006510060A (ja) | 複数の音響源が生成した複数の音響信号を分離する方法及びシステム | |
Shi et al. | End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network. | |
CN118398033A (zh) | 一种基于语音的情绪识别方法、系统、装置及储存介质 | |
Abdulatif et al. | Investigating cross-domain losses for speech enhancement | |
CN114827363A (zh) | 用于通话过程中消除回声的方法、设备和可读存储介质 | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
CN113516987A (zh) | 一种说话人识别方法、装置、存储介质及设备 | |
CN111091847A (zh) | 基于并改进的深度聚类语音分离方法 | |
CN111009262A (zh) | 语音性别识别的方法及系统 | |
CN116959468A (zh) | 一种基于dcctn网络模型的语音增强方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201020 |
|
WD01 | Invention patent application deemed withdrawn after publication |