CN111666996B - 一种基于attention机制的高精度设备源识别方法 - Google Patents
一种基于attention机制的高精度设备源识别方法 Download PDFInfo
- Publication number
- CN111666996B CN111666996B CN202010479743.7A CN202010479743A CN111666996B CN 111666996 B CN111666996 B CN 111666996B CN 202010479743 A CN202010479743 A CN 202010479743A CN 111666996 B CN111666996 B CN 111666996B
- Authority
- CN
- China
- Prior art keywords
- feature
- equipment source
- layer
- features
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 33
- 238000011176 pooling Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000005284 excitation Effects 0.000 claims description 3
- 230000036961 partial effect Effects 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 10
- 238000000605 extraction Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000011664 nicotinic acid Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
Abstract
本发明提出了一种基于attention机制的高精度设备源识别方法。首先,提出在attention机制中加入卷积池化操作来提升特征的表征性,卷积池化层经过训练可以更好的捕捉设备源特征;其次,提出attention机制,使用神经网络为每一种特征自主学习一个权重,从而剔除原始特征数据的冗余信息和干扰数据,实现特征数据的精简;最后,本发明对将MFCC、高斯超矢量和i‑vector三种常见的特征作为设备源特征,并结合attention机制和深度神经网络,用于解决单一特征的局限性。本发明的设备源识别方法与传统设备源识别方法相比能够有效提升系统的识别性能,优化了系统结构,提高了相应设备源识别产品的竞争力。
Description
技术领域
本发明涉及一种高精度设备源识别方法,尤其是涉及一种基于attention机制的高精度设备源识别方法。
背景技术
现如今,数字媒体技术发展的越来越快,各类电子产品如电脑、相机、移动手机、打印机等设备在人们日常生活中扮演着不可或缺的角色,产生了大量的媒体文件。在人们的需求下,各种数字媒体编辑软件也逐渐走向便捷化。一方面,这些数字编辑软件给人们的生活带来便捷与欢乐,另一方面,也引入了许多具有挑战性的问题。例如,有一些不法份子通过一些录音设备和编辑软件,偷录、伪造出大量的语音数据,由此引发的一系列问题严重影响了司法公正和社会秩序,对社会造成了非常恶劣的影响。因此对数字媒体文件做出来源判断显得尤为重要。
目前现有技术都是先对语音信号进行预处理,主要包括去噪、加窗、分帧、提取静音段这几个步骤,然后在语音段中提取出能够反映出设备信道指纹信息的特征,最后使用特征数据构建各种机器学习模型或者深度神经网络的模型并进行评分。
随着深度学习的发展,人们在做分类识别的时候,深度学习成为了一种有效的手段,并且在数据处理能力和计算量上等方面大大优于传统方法。但是,构建深度神经网络进行设备源识别仍然存在如下问题:
(1)传统的深度神经网络的移动设备源识别方法的特征的表征性效率差;无法通过特征信息对移动设备进行充分的表征建模。
(2)传统大多数的方法直接将原始的特征数据用于构建算法模型,由于原始的特征数据存在大量的冗余和干扰信息,因此使得在构建算法模型时加大了计算量,也使得最终的算法模型不够精确。
(3)目前大多数的方法使用单一的特征数据对设备源特征进行建模。单一特征存在很大的局限性,因此模型的构建不够准确。
发明内容
本发明主要是解决现有技术所存在的技术问题;提供了一种可执行的高效的解决方案。针对问题一,我们提出在attention机制中加入卷积池化操作来提升特征的表征性,卷积池化层经过训练可以更好的捕捉设备源特征;针对问题二,我们提出attention机制,使用神经网络为每一种特征自主学习一个权重,从而剔除原始特征数据的冗余信息和干扰数据,实现特征数据的精简;针对问题三,本发明对将MFCC、高斯超矢量和i-vector三种常见的特征作为设备源特征,并结合attention机制和深度神经网络,用于解决单一特征的局限性。从而提出一种新的设备源识别系统。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种基于attention机制的高精度设备源识别方法,其特征在于,包括:
步骤1、采集原始语音信号后对其进行预处理后,提取预处理后的设备源MFCC特征;
步骤2、从步骤1得到的设备源MFCC特征出抽出一组用于训练通用背景模型UBM,得到训练好的通用背景模型UBM;
步骤3、首先将目标设备源和待识别设备源的录音按步骤1提取出MFCC特征,然后利用步骤2训练好的中UBM模型对每个特征进行自适应MAP操作,得到高斯超向量GSV。同样利用UBM结合每段录音得到每段录音的Baum-Welch统计量,然后通过EM算法统计得到T矩阵,最后通过T矩阵和统计量得到i-vector估计值;
步骤4、首先将前面步骤中得到的三种特征组合起来,形成一个矩阵,然后将矩阵放入attention网络中学习参数,attention机制会给每个特征分配一个权重来决定每个特征对于设备源识别的重要性,基于attention机制的组合权重后,将特征拼接起来放入DNN中进一步拟合。
步骤5、进行设备源识别与决策,使用softmax层进行设备源的分类,将分类结果与真实标签进行比对,从而得出系统的识别准确率。
在上述的一种基于attention机制的高精度设备源识别方法,步骤1是将采集的原始语音信号依次进行预加重、分帧、加窗,快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、倒谱均值和方差归一化(CMVN)操作,具体包括
步骤1.1、预加重:为了消除录音过程中说话人造成的部分效应,来补偿录音信号中受到发音系统所压抑的高频部分
y=x(n)-a*x(n-1),0.95<a<0.97 (1)
式中a为预加重系数,设n时刻的语音采样率为x(n),经过预加重处理后的结果为y;
步骤1.2、分帧:将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512
步骤1.3、加窗:将每一帧乘以汉明窗,以增加帧左端和右端的连续性。
其中q(n)表示分帧之后的信号,s(n)表示加窗之后的信号。
步骤1.4、快速傅里叶变换(FFT):将时域信号转化到频域进行后续的频率分析
式中s(n)表示加窗之后的信号,S(n)表示经过快速傅里叶变换之后的频域信号,N表示傅里叶变换的帧数
步骤1.5、将能量谱通过一组Mel尺度的三角形滤波器组,定义为一个有M个三角滤波器的滤波器组,中心频率为f(m),m=1,2,…,M;各f(m)之间的间隔与m值成正比;
步骤1.6、经离散余弦变换(DCT)得到MFCC系数:
将上述的对数能量带入离散余弦变换,式中M为三角滤波器的个数;L是MFCC系数的阶数,取12-16;
步骤1.7、差分:为了使特征更能体现时域连续性,可以在特征维度增加前后帧信息的维度。一般常用的是一阶差分和二阶差分;
步骤1.8、倒谱均值和方差归一化可以消除平稳信道影响,提升特征的鲁棒性。
在上述的一种基于attention机制的高精度设备源识别方法,所述步骤2具体包括:
步骤2.1、若某条语音数据对应的特征为X,其中X={x1,x2,…xT},且假设其维度为D,用于计算其似然函数的公式为:
式中该密度函数由K个单高斯密度函数pk(Xt)加权得到,其中每一个高斯分量的均值μk和协方差∑k的大小分别为:1×D和D×D;
其中混合权重wk满足假设λ表示模型参数的集合,则有λ={wk,μi,∑k},k=1,2,…,K,该模型通过期望最大化(EM)迭代训练得出;
步骤2.2、使用EM算法获取参数λ,先给予λ一个初始值,然后估计出新参数λ′,使得在λ′下的似然度更高,即p(X|λ′)≥p(X|λ),新参数再作为当前参数进行训练,不断迭代,各参数的重估计公式为:
其中wk代表混合权重,μk表均值和∑k为协方差矩阵。
在上述的一种基于attention机制的高精度设备源识别方法,步骤3具体包括:
步骤3.1、首先对S个设备的特征向量通过MAP自适应得到特定设备源GMM,提取GMM的均值向量,也即均值超向量(GSV)。
步骤3.2、计算每段录音对应的Baum-Welch统计量
Nj,h(s)=∑P(j|xt,xt) (8)
Fj,h(s)=∑P(j|xt,λ)xt (9)
其中Fj,h(s)表示一阶统计量,Nj,h(s)表示零阶统计量矩阵;
然后用EM算法迭代10次训练出T矩阵,然后通过如下公式计算出i-vector估计值:
E[Ws,h]=(I+TT∑-1Nh(s)T)-1TT∑-1Fh(s) (10)
Nh(s),Fh(s)分别表示上一步中提取的一阶统计量和零阶统计矩阵,T矩阵表示全局差异矩阵,E[Ws,h]表示高斯超向量,I表示i-vector向量;此时需要的三种特征便提取完毕。
在上述的一种基于attention机制的高精度设备源识别方法,步骤4具体包括:
步骤4.1、在attention网络模型中,特征信息包含三个来源,即为步骤1-3提取的MFCC、GSV特征和i-vector特征。Attention机制如何为每一个不同的特征产生注意是这个问题是至关重要的一步,我们利用卷积,池化,采用激活函数(类似于softmax)的方式来构建权重,从而重新调整特征映射。首先,我们将三种特征组合起来,为三种特征组合而成的输入特征,假设X有n个通道,第一层卷积层有m个卷积核,则经过m个卷积滤波之后,得到Yn
其中Yn代表的是经过卷积之后的输出,xi代表的是输入特征的第i个通道,fj代表的是第j个卷积核,代表卷积操作,/>代表激活函数,卷积操作不仅提取了特征的平坦的低频信息,同时也融合了各通道之间的信息,获得了各通道特征的相关性信息。
经过一层卷积后得到X1∈RH×W×C,为了得到不同特征之间的权值信息,我们将Yn全局池化得到1×1×n的权重向量,这种全局池化的向量可以看做是局部特征的集合,这些局部特征的统计量一定程度上可以代表整个特征。
如12式所示,Wm为第m个特征对应的权重值。最后再将权重值与每个特征相乘得到权重组合。
步骤4.2、当完成基于attention机制的组合权重后,为了进一步增加拟合性,将组合权重后加入了两层DNN,并且在最后一层上增加一层softmax层,然后使用带标注的数据,利用传统神经网络的学习算法(如BP算法)来学习DNN的模型参数。
假设第0层为输入层,第L层为输出层,1到L-1为隐藏层。对于隐藏层l(l=1,2,…,L-1),其节点输出激励值可以计算为:
其中,Wl-1和bl-1为权重矩阵和偏置,zl为l层输入值的加权和,σ(·)为激活函数,一般使用sigmoid或tanh函数。
在上述的一种基于attention机制的高精度设备源识别方法,步骤5具体包括:
步骤5.1、在后端测试阶段,当给出一条测试语音经过融合后的特征之后,首先将该语音和所有设备源模型进行比对,得到测试分数,即测试所得分;
对于输出层,采用Softmax函数:
式中k为输出类别的索引,即目标设备源的类别索引,ps表示待识别设备源在第s类的输出值,即输出概率。
步骤5.2、将最大得分对应的标签与真实的标签进行对比,如果相同,就认为这段语音是来自于所声称的设备的语音,否则就拒绝;
步骤5.3、计算所有测试语音正确识别设备的概率,即系统的识别率。
因此,本发明具有如下优点:本发明与传统设备源识别相比,将深度神经网络与设备源识别系统模型相融合,将attention机制用于结合MFCC、高斯超矢量和i-vector的多层结构在提高评价设备源表征能力方面的显著效果。本发明的设备源识别方法与传统设备源识别方法相比能够有效提升系统的识别性能,优化了系统结构,提高了相应设备源识别产品的竞争力。
附图说明
图1为基于MFCC,GSV和i-vector的算法流程图。
图2为MFCC特征提取流程图。
图3为高斯超矢量提取流程图。
图4为i-vector提取流程图。
图5为attention网络的模型。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:
本发明可以分为三部分:1)设备源特征提取;2)attention机制网络设计;3)设备源识别与决策(softmax)。
1)设备源特征提取,步骤如下:
A、采集原始录音信号并依次预加重、分帧、加窗,快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、倒谱均值和方差归一化(CMVN)等操作;
(A-1)为了消除录音过程中,说话人造成的部分效应,来补偿录音信号中受到发音系统所压抑的高频部分
y=x(n)-a*x(n-1),0.95<a<0.97 (1)
式中a为预加重系数,设n时刻的语音采样率为x(n),经过预加重处理后的结果为y;
(A-2)分帧:将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512
(A-3)加窗:将每一帧乘以汉明窗,以增加帧左端和右端的连续性
其中q(n)表示分帧之后的信号,s(n)表示加窗之后的信号。
(A-4)快速傅里叶变换(FFT):将时域信号转化到频域进行后续的频率分析
式中s(n)表示加窗之后的信号,S(n)表示经过快速傅里叶变换之后的频域信号,N表示傅里叶变换的帧数。
(A-5)将能量谱通过一组Mel尺度的三角形滤波器组,定义为一个有M个三角滤波器的滤波器组,中心频率为f(m),m=1,2,…,M;各f(m)之间的间隔与m值成正比;
(A-6)经离散余弦变换(DCT)得到MFCC系数:
将上述的对数能量带入离散余弦变换,式中M为三角滤波器的个数;L是MFCC系数的阶数,取12-16;
(A-7)差分:为了使特征更能体现时域连续性,可以在特征维度增加前后帧信息的维度。常用的是一阶差分和二阶差分;
(A-8)倒谱均值和方差归一化可以消除平稳信道影响,提升特征的鲁棒性。
B、本发明将从设备源数据集按步骤A提取出39维MFCC特征,训练高斯数为64的通用背景模型(Universal Background Model,UBM),然后利用B中UBM模型对每个特征进行最大后验概率(Maximum a posteriori,MAP)操作,得到高斯超矢量,其大小为64*39;
(B-1)若某条语音数据对应的特征为X,其中X={x1,x2,…xT},且假设其维度为D,用于计算其似然函数的公式为:
式中该密度函数由K个单高斯密度函数pk(Xt)加权得到,其中每一个高斯分量的均值μk和协方差∑k的大小分别为:1×D和D×D;
其中混合权重wk满足假设λ表示模型参数的集合,则有λ={wk,μi,∑k},k=1,2,…,K,该模型通过期望最大化(EM)迭代训练得出;
(B-2)一般用EM算法获取参数λ,先给予λ一个初始值,然后估计出新参数λ′,使得在λ′下的似然度更高,即p(X|λ′)≥p(X|λ),新参数再作为当前参数进行训练,不断迭代,各参数的重估计公式为:
其中wk代表混合权重,μk表均值和∑k为协方差矩阵。
C、首先将目标设备源和待识别设备源的语音按步骤A提取出MFCC特征,然后利用B中UBM模型对每个特征进行自适应(Maximum a posteriori,MAP)操作,得到高斯超矢量,其大小为64*39,同时利用UBM结合每段录音得到每段录音的Baum-Welch统计量,然后通过EM算法统计得到T矩阵,最后通过T矩阵和统计量得到i-vector估计值。
(C-1)在此阶段,首先对S个设备源的特征向量通过MAP自适应得到特定设备的GMM,提取GMM的均值向量,也即是我们所需要的均值超向量(GSV)。
(C-2)主要步骤如下:
计算每段录音对应的Baum-Welch统计量
Nj,h(s)=∑P(j|xt,xt) (8)
Fj,h(s)=∑P(j|xt,λ)xt (9)
其中Fj,h(s)表示一阶统计量,Nj,h(s)表示零阶统计量矩阵。
然后用EM算法迭代10次训练出T矩阵,然后通过如下公式计算出i-vector估计值:
E[Ws,h]=(I+TT∑-1Nh(s)T)-1TT∑-1Fh(s) (10)
Nh(s),Fh(s)分别表示上一步中提取的一阶统计量和零阶统计矩阵,T矩阵表示全局差异矩阵,E[Ws,h]表示高斯超向量,I表示i-vector向量。此时需要的三种特征便提取完毕。
2)attention机制网络设计,步骤如下:
A、深度学习attention机制是对人类视觉注意力机制的仿生,本质上是一种资源分配机制。生理原理就是人类视觉注意力能够以高分辨率接收于图片上的某个区域,并且以低分辨率感知其周边区域,并且视点能够随着时间而改变。在本发明中,attention机制应用于MFCC、GSV与i-vector,学习三者的组合权重,目的在于获取更多细节信息和抑制其他无用信息。提高特征的高效性。
(A-1)基于attention机制的网络特征融合
本发明中提出了一个attention网络。它不仅利用对齐信息,还可以学习组合权重。在此模型中,特征信息包含三个来源,即为步骤1-3提取的MFCC、GSV特征和i-vector特征。Attention机制如何为每一个不同的特征产生注意是这个问题是至关重要的一步,我们利用卷积,池化,采用激活函数(类似于softmax)的方式来构建权重,从而重新调整特征映射。首先,我们将三种特征组合起来,为三种特征组合而成的输入特征,假设X有n个通道,第一层卷积层有m个卷积核,则经过m个卷积滤波之后,得到Yn
其中Yn代表的是经过卷积之后的输出,xi代表的是输入特征的第i个通道,fj代表的是第j个卷积核,代表卷积操作,/>代表激活函数,卷积操作不仅提取了特征的平坦的低频信息,同时也融合了各通道之间的信息,获得了各通道特征的相关性信息。
经过一层卷积后得到X1∈RH×W×C,为了得到不同特征之间的权值信息,我们将Yn全局池化得到1×1×n的权重向量,这种全局池化的向量可以看做是局部特征的集合,这些局部特征的统计量一定程度上可以代表整个特征。
如12式所示,Wm为第m个特征对应的权重值。最后再将权重值与每个特征相乘得到权重组合。
(A-2)基于反向传播算法的参数训练
当完成基于attention机制的组合权重后,为了进一步增加拟合性,将组合权重后加入了两层DNN,并且在最后一层上增加一层softmax层,然后使用带标注的数据,利用传统神经网络的学习算法(如BP算法)来学习DNN的模型参数。
假设第0层为输入层,第L层为输出层,1到L-1为隐藏层。对于隐藏层l(l=1,2,…,L-1),其节点输出激励值可以计算为:
其中,Wl-1和bl-1为权重矩阵和偏置,zl为l层输入值的加权和,σ(·)为激活函数,一般使用sigmoid或tanh函数。
3)设备源识别与决策(softmax):
A、在后端测试阶段,当给出一条测试语音经过融合后的特征之后,首先将该语音和所有设备源模型进行比对,得到测试分数,即测试所得分;
对于输出层,采用Softmax函数:
式中k为输出类别的索引,即目标设备源的类别索引,ps表示待识别设备源第s类的输出值,即输出概率。
B、将最大得分对应的标签与真实的标签进行对比,如果相同,就认为这段录是来自于所声称的设备的语音,否则就拒绝;
C计算所有测试语音正确识别设备的概率,即系统的识别率。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (5)
1.一种基于attention机制的高精度设备源识别方法,其特征在于,包括:
步骤1、采集原始语音信号后对其进行预处理后,提取预处理后的设备源MFCC特征;
步骤2、从步骤1得到的设备源MFCC特征中抽出一组用于训练通用背景模型UBM,得到训练好的通用背景模型UBM;
步骤3、首先将目标设备源和待识别设备源的录音按步骤1提取出MFCC特征,然后利用步骤2中训练好的UBM模型对每个特征进行自适应MAP操作,得到高斯超向量GSV特征;同样利用UBM结合每段录音得到每段录音的Baum-Welch统计量,然后通过EM算法统计得到T矩阵,最后通过T矩阵和Baum-Welch统计量得到i-vector特征;
步骤4、首先将前面步骤中MFCC特征、GSV特征和i-vector特征组合起来,形成一个矩阵,然后将矩阵放入attention网络中学习参数,attention机制会给每个特征分配一个权重来决定每个特征对于设备源识别的重要性,基于attention机制的权重对特征进行组合后,将组合后的特征拼接起来放入DNN中进一步拟合;
步骤5、进行设备源识别与决策,使用softmax层进行设备源的分类,softmax层的结点数即为设备源数据的种类数,将分类结果与真实标签进行比对,从而得出系统的识别准确率;
步骤4具体包括:
步骤4.1、在attention网络模型中,特征信息包含三个来源,即为步骤1-3提取的MFCC、GSV特征和i-vector特征;Attention机制为每一个不同的特征产生注意,利用卷积,池化,采用激活函数的方式来构建权重,从而重新调整特征映射;首先,我们将三种特征组合起来,得到由三种特征组合而成的输入特征X,假设X有n个通道,第一层卷积层有m个卷积核,则经过m个卷积滤波之后,得到Yn
其中Yn代表的是经过卷积之后的输出,xi代表的是输入特征的第i个通道,fj代表的是第j个卷积核,代表卷积操作,/>代表激活函数;
经过一层卷积后得到X1∈RH×W×C,为了得到不同特征之间的权值信息,将Yn全局池化得到1×1×n的权重向量;
如12式所示,Wm为第m个特征对应的权重值;最后再将权重值与每个特征相乘得到权重组合后的特征;
步骤4.2、当完成基于attention机制的权重组合后,为了进一步增加拟合性,将组合权重后的特征加入了两层DNN,并且在最后一层上增加一层softmax层,然后使用带标注的数据,利用BP算法来学习DNN的模型参数;
假设第0层为输入层,第L层为输出层,1到L-1为隐藏层;对于隐藏层l(l=1,2,…,L-1),其节点输出激励值可以计算为:
其中,Wl-1和bl-1为权重矩阵和偏置,zl为l层输入值的加权和,σ(·)为激活函数,使用sigmoid或tanh函数。
2.根据权利要求1所述的一种基于attention机制的高精度设备源识别方法,其特征在于,步骤1是将采集的原始语音信号依次进行预加重、分帧、加窗,快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、倒谱均值和方差归一化(CMVN)操作,具体包括
步骤1.1、预加重:为了消除录音过程中说话人造成的部分效应,来补偿录音信号中受到发音系统所压抑的高频部分
y=x(n)-a*x(n-1),0.95<a<0.97 (1)
式中a为预加重系数,设n时刻的语音采样率为x(n),经过预加重处理后的结果为y;
步骤1.2、分帧:将N个采样点集合成一个观测单位,称为帧;N的值为256或512;
步骤1.3、加窗:将每一帧乘以汉明窗,以增加帧左端和右端的连续性;
其中q(n)表示分帧之后的信号,s(n)表示加窗之后的信号;
步骤1.4、快速傅里叶变换(FFT):将时域信号转化到频域进行后续的频率分析
式中s(n)表示加窗之后的信号,S(n)表示经过快速傅里叶变换之后的频域信号,N表示傅里叶变换的帧数
步骤1.5、将能量谱通过一组Mel尺度的三角形滤波器组,定义为一个有M个三角滤波器的滤波器组,中心频率为f(m),m=1,2,…,M;各f(m)之间的间隔与m值成正比;
步骤1.6、经离散余弦变换(DCT)得到MFCC系数:
将上述的对数能量带入离散余弦变换,式中M为三角滤波器的个数;L是MFCC系数的阶数,取12-16;
步骤1.7、差分:为了使特征更能体现时域连续性,在特征维度增加前后帧信息的维度;采用一阶差分或二阶差分;
步骤1.8、倒谱均值和方差归一化可以消除平稳信道影响,提升特征的鲁棒性。
3.根据权利要求1所述的一种基于attention机制的高精度设备源识别方法,其特征在于,所述步骤2具体包括:
步骤2.1、若某条语音数据对应的特征为X,其中X={x1,x2,…xT},且假设其维度为D,用于计算其似然函数的公式为:
式中该密度函数由K个单高斯密度函数pk(Xt)加权得到,其中每一个高斯分量的均值μk和协方差∑k的大小分别为:1×D和D×D;
其中混合权重wk满足假设λ表示模型参数的集合,则有λ={wk,μi,∑k},k=1,2,…,K,该模型通过期望最大化算法(EM)迭代训练得出;
步骤2.2、使用EM算法获取参数λ,先给予λ一个初始值,然后估计出新参数λ′,使得在λ′下的似然度更高,即p(X|λ′)≥p(X|λ),新参数再作为当前参数进行训练,不断迭代,各参数的重估计公式为:
其中wk代表混合权重,μk表均值和∑k为协方差矩阵。
4.根据权利要求1所述的一种基于attention机制的高精度设备源识别方法,其特征在于,步骤3具体包括:
步骤3.1、首先对S个设备的特征向量通过MAP自适应得到特定设备源GMM,提取GMM的均值向量,也即均值超向量(GSV);
步骤3.2、计算每段录音对应的Baum-Welch统计量
Nj,h(s)=∑P(j|xt,xt) (8)
Fj,h(s)=∑P(j|xt,λ)xt (9)
其中Fj,h(s)表示一阶统计量,Nj,h(s)表示零阶统计量矩阵;
然后用EM算法迭代10次训练出T矩阵,然后通过如下公式计算出i-vector估计值:
E[Ws,h]=(I-TTΣ-1Nh(s)T)-1TTΣ-1Fh(s) (10)
Nh(s),Fh(s)分别表示上一步中提取的一阶统计量和零阶统计矩阵,T矩阵表示全局差异矩阵,E[Ws,h]表示高斯超向量,I表示i-vector向量;此时需要的三种特征便提取完毕。
5.根据权利要求1所述的一种基于attention机制的高精度设备源识别方法,其特征在于,步骤5具体包括:
步骤5.1、在后端测试阶段,当给出一条测试语音经过融合后的特征之后,首先将该语音和所有设备源模型进行比对,得到测试分数,即测试所得分;
对于输出层,采用Softmax函数:
式中k为输出类别的索引,即目标设备源的类别索引,ps表示待识别设备源在第s类的输出值,即输出概率;
步骤5.2、将最大得分对应的标签与真实的标签进行对比,如果相同,就认为这段语音是来自于所声称的设备的语音,否则就拒绝;
步骤5.3、计算所有测试语音正确识别设备的概率,即系统的识别率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010479743.7A CN111666996B (zh) | 2020-05-29 | 2020-05-29 | 一种基于attention机制的高精度设备源识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010479743.7A CN111666996B (zh) | 2020-05-29 | 2020-05-29 | 一种基于attention机制的高精度设备源识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666996A CN111666996A (zh) | 2020-09-15 |
CN111666996B true CN111666996B (zh) | 2023-09-19 |
Family
ID=72385392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010479743.7A Active CN111666996B (zh) | 2020-05-29 | 2020-05-29 | 一种基于attention机制的高精度设备源识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666996B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112151067B (zh) * | 2020-09-27 | 2023-05-02 | 湖北工业大学 | 一种基于卷积神经网络的数字音频篡改被动检测方法 |
CN112163164B (zh) * | 2020-10-16 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 一种用户标签确定方法和相关装置 |
CN113011302B (zh) * | 2021-03-11 | 2022-04-01 | 国网电力科学研究院武汉南瑞有限责任公司 | 一种基于卷积神经网络的雷声信号识别系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN109599129A (zh) * | 2018-11-13 | 2019-04-09 | 杭州电子科技大学 | 基于注意力机制和卷积神经网络的语音抑郁症识别方法 |
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
CN110459225A (zh) * | 2019-08-14 | 2019-11-15 | 南京邮电大学 | 一种基于cnn融合特征的说话人辨认系统 |
CN110534101A (zh) * | 2019-08-27 | 2019-12-03 | 华中师范大学 | 一种基于多模融合深度特征的移动设备源识别方法及系统 |
-
2020
- 2020-05-29 CN CN202010479743.7A patent/CN111666996B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN109599129A (zh) * | 2018-11-13 | 2019-04-09 | 杭州电子科技大学 | 基于注意力机制和卷积神经网络的语音抑郁症识别方法 |
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
CN110459225A (zh) * | 2019-08-14 | 2019-11-15 | 南京邮电大学 | 一种基于cnn融合特征的说话人辨认系统 |
CN110534101A (zh) * | 2019-08-27 | 2019-12-03 | 华中师范大学 | 一种基于多模融合深度特征的移动设备源识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
Srikanth Madikeri 等.INTEGRATING ONLINE I-VECTOR EXTRACTOR WITH INFORMATION BOTTLENECK BASED SPEAKER DIARIZATION SYSTEM.《IDIAP RESEARCH REPORT》.2015,第1-7页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111666996A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kenny et al. | Diarization of telephone conversations using factor analysis | |
Weninger et al. | Single-channel speech separation with memory-enhanced recurrent neural networks | |
CN110310647B (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
Han et al. | Acoustic scene classification using convolutional neural network and multiple-width frequency-delta data augmentation | |
WO2019227586A1 (zh) | 语音模型训练方法、说话人识别方法、装置、设备及介质 | |
CN109256144B (zh) | 基于集成学习与噪声感知训练的语音增强方法 | |
CN110120218B (zh) | 基于gmm-hmm的高速公路大型车辆识别方法 | |
WO2019102884A1 (ja) | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 | |
CN111666996B (zh) | 一种基于attention机制的高精度设备源识别方法 | |
US20070233484A1 (en) | Method for Automatic Speaker Recognition | |
Irum et al. | Speaker verification using deep neural networks: A | |
CN106952643A (zh) | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN111754988A (zh) | 基于注意力机制和双路径深度残差网络的声场景分类方法 | |
JP6723120B2 (ja) | 音響処理装置および音響処理方法 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
Mallidi et al. | Uncertainty estimation of DNN classifiers | |
Mallidi et al. | Autoencoder based multi-stream combination for noise robust speech recognition. | |
KR102026226B1 (ko) | 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템 | |
Zöhrer et al. | Representation learning for single-channel source separation and bandwidth extension | |
Dua et al. | Optimizing integrated features for Hindi automatic speech recognition system | |
CN113555023B (zh) | 一种语音鉴伪与说话人识别联合建模的方法 | |
Ozerov et al. | GMM-based classification from noisy features | |
CN115273904A (zh) | 一种基于多特征融合的愤怒情绪识别方法及装置 | |
Doulaty et al. | Automatic optimization of data perturbation distributions for multi-style training in speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |