CN103854645B - 一种基于说话人惩罚的独立于说话人语音情感识别方法 - Google Patents
一种基于说话人惩罚的独立于说话人语音情感识别方法 Download PDFInfo
- Publication number
- CN103854645B CN103854645B CN201410078383.4A CN201410078383A CN103854645B CN 103854645 B CN103854645 B CN 103854645B CN 201410078383 A CN201410078383 A CN 201410078383A CN 103854645 B CN103854645 B CN 103854645B
- Authority
- CN
- China
- Prior art keywords
- sample
- speaker
- speech
- emotion
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000008451 emotion Effects 0.000 claims abstract description 115
- 230000009467 reduction Effects 0.000 claims abstract description 68
- 230000008909 emotion recognition Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims description 90
- 239000013598 vector Substances 0.000 claims description 77
- 239000011159 matrix material Substances 0.000 claims description 63
- 238000012360 testing method Methods 0.000 claims description 61
- 238000004422 calculation algorithm Methods 0.000 claims description 60
- 238000013507 mapping Methods 0.000 claims description 29
- 238000012216 screening Methods 0.000 claims description 26
- 238000004458 analytical method Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 15
- 238000000513 principal component analysis Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 241000764238 Isis Species 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000008929 regeneration Effects 0.000 claims description 3
- 238000011069 regeneration method Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 abstract description 4
- 238000007796 conventional method Methods 0.000 abstract 1
- 238000000605 extraction Methods 0.000 abstract 1
- 238000011160 research Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000013506 data mapping Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003867 tiredness Effects 0.000 description 1
- 208000016255 tiredness Diseases 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种基于说话人惩罚的独立于说话人语音情感识别方法,对语音信号样本依次进行预处理、语音情感原始特征提取、维数约简、分类器分类判决。其中在维数约简阶段,使用了基于说话人惩罚的图嵌入学习方法,利用说话人标签信息,分别针对属于同一类情感类别但说话人不同,以及属于同一说话人但分属于不同情感类别的语音信号样本对,在图嵌入理论的基础上利用已有理论,进行组合优化运算。与现有方法相比,本发明的方法在独立于说话人的语音情感识别中,能够有效地提升系统的识别性能。
Description
技术领域
本发明属于语音情感识别领域,特别是涉及一种基于说话人惩罚的独立于说话人语音情感识别方法。
背景技术
随着应用需求不断增加,语音情感识别(Speech Emotion Recognition,简称SER)的研究近年来得到了较大的发展。语音情感识别的成果可以应用于呼叫中心语料的自动分析处理,以及人机交互(Human-Machine Interaction,简称HMI)等诸多领域,以获取语音情感信息的自动分析识别,实现机器的智能化。基于上述的需求,为了取得更高的系统性能,目前已有了大量集中在语音情感识别方面的研究工作。然而,大量已有的工作都是对如何利用专家知识或是实验经验,选取有效的语音情感特征的研究,这些研究忽略了系统对样本变化的自适应性,从而并不具有很好的可移植性。而且语音情感原始特征一般都含有着大量的冗余信息。
独立于说话人的语音情感识别工作则在语音情感识别系统的训练和测试阶段分别使用完全不同的说话人语料样本,使得算法的训练和测试阶段基于不同的说话人信息。从而提高了算法的实用性,但却同时加大了算法实现语音情感识别的难度。
维数约简作为模式识别与机器学习中一个重要的环节,不仅对特征的提取、压缩、传输以及有效地减小后续模块中的计算量有着重要的意义,还能够显著地提高整个系统的识别性能。流形学习方法常用于识别工作的维数约简阶段,可以体现出训练数据集的本征结构。目前常用的基于图学习的流形学习方法有多种,如局部保持投影(LocalityPreserving Projection)、局部线性嵌入(Locally Linear Embedding,简称LLE)、扩散映射(Diffusion Maps,简称DM)、Isomap、边界Fisher分析(Marginal Fisher Analysis,简称MFA)等。此外,还有主成分分析(Principal Component Analysis,简称PCA)、线性判别分析(Liner Discriminant Analysis,简称LDA)、局部判别嵌入(Local DiscriminantEmbedding,简称LDE)等可以转化为图学习形式的子空间学习算法。上述这些算法都可以表示为统一的图嵌入框架、最小均方框架及其各类扩展形式。
当前的研究中还存在着以下问题:由于在提取语音情感原始特征时包含了大量的说话人特征,所以不同说话人的存在对语音识别的效果有着较大的影响,尤其是独立于说话人语音情感识别时对系统的影响更为明显。而目前的语音情感识别主要针对不同说话人的情况,所以减轻不同说话人对识别的影响有着重要的意义。在此基础上,大量的研究工作基于经验性的实验结论来去除说话人特征的影响,但这些成果对于不同环境下的自适应性同样不够理想。本发明正是基于这些缺陷,对语音情感识别系统,尤其是独立于说话人条件下的语音情感识别,进行了一系列改进,使其对不同说话人所带来的影响具有一定的鲁棒性。
发明内容
要解决的技术问题:针对现有技术的不足,本发明提出一种基于说话人惩罚的独立于说话人语音情感识别方法,即说话人惩罚图学习(Speaker Penalty Graph Learning,简称SPGL),具体包括线性说话人惩罚图学习算法(简称LSPGL)和核说话人惩罚图学习算法(简称KSPGL),解决现有技术中语音情感特征受不同说话人影响较大;并且存在语音情感的维数较高,不适于特征的压缩、传输,不利于系统的识别性能;同时传统的独立于说话人语音情感识别算法可移植性较差的技术问题。
技术方案:为解决上述技术问题,本发明采用以下技术方案:
一种基于说话人惩罚的独立于说话人语音情感识别方法,将语音情感数据库中若干个语音样本按照不同说话人划分为训练样本集和测试样本集,且训练集中任一样本所属的说话人在测试集中不出现,其中每个语音样本均具有语音情感标签信息和说话人标签信息,包括顺序执行的以下步骤:
步骤一,语音样本预处理:对语音样本进行预加重,然后对预加重后的语音样本的时域信号进行分帧;
步骤二,语音情感特征提取:对经步骤一处理后的每个语音样本,分别提取其能量、基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音样本的原始语音情感特征向量;对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量;
步骤三,特征筛选:使用训练样本语音情感标签信息,对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选,去除规整化语音情感特征向量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向量;
步骤四,基于说话人惩罚的特征维数约简:设经步骤三特征筛选得到训练样本特征筛选后语音情感特征向量集X=[x1,x2,...,xN],利用训练样本的语音情感标签信息和说话人标签信息,采用本发明提出的LSPGL算法或KSPGL算法对X进行维数约简训练,生成LSPGL算法对应的线性降维投影矩阵A或KSPGL算法对应的核方法降维映射阵P,同时分别求解得到X的线性映射低维样本集ATX或核映射低维样本集PTK,其中K为训练样本集的Gram阵,选用Gauss核函数;
步骤五,训练分类器:对多类SVM分类器进行训练或直接选取1NN分类器;其中多类SVM分类器进行训练的方法为:设训练样本集中有N个分属于Nc个种类的语音样本,在训练样本集中任取两个种类的语音样本,进行训练得到1个两类SVM分类器,每两类重复该训练过程,共得到Nc(Nc-1)/2个两类SVM分类器;
步骤六,测试:对于每个测试样本,使用经步骤五训练完成的分类器对每个测试样本进行测试,具体包括顺序执行的以下步骤:
(1)对经步骤三得到的每个测试样本的特征筛选后语音情感特征向量使用线性降维投影矩阵A或核方法降维映射阵P进行维数约简,得到经过线性维数约简后的低维样本或经过核方法维数约简后的低维样本PTKi,对于一个测试样本 Gram阵K中的核函数选用步骤四中所述的Gauss核函数;
(2)使用分类器对或PTKi进行分类,选择多类SVM分类器或者1NN分类器进行分类:
利用多类SVM分类器分类的方法为:将每个测试样本的低维样本或PTKi经所有得到的两类SVM分类器分类之后得到Nc(Nc-1)/2个判断结果,得票最多的判断结果即判决为对应的测试样本所属的情感类别;若出现相同最多票数,则仅选择由最多票数所对应的情感类别两两组成的两类SVM分类器重新对该测试样本的低维样本进行判断,得到新一轮判断结果,上述方法依次递减两类SVM分类器的个数直到得到一个唯一的最多票数即判决为对应测试样本所属的情感类别;如一个测试样本的低维样本按此过程仍有相同最大票数的类别判决时,则在这几类中随机决定对应测试样本的类别;
利用1NN分类器分类的方法为:对于每一个测试样本,在全体训练样本中找到与其欧式距离最近的训练样本,使用该训练样本对应的类别标签作为该测试样本的分类判决结果。
进一步的,在本发明中,步骤二中原始语音情感特征向量中的语音情感特征分布如下:
1-80维:能量序列的统计特征和一阶、二阶抖动;能量一阶、二阶差分序列的统计特征;三个不同频带内的能量序列及其一阶、二阶差分序列分别的统计特征;三个不同频带内能量序列的一阶、二阶抖动;
81-101维:基音序列的统计特征和一阶、二阶抖动;基音一阶、二阶差分序列的统计特征;基音序列斜率;
102-121维:过零率序列及其一阶、二阶差分序列的统计特征;
122-130维:浊音帧数与清音帧数的比;浊音段数与清音段数的比;浊、清音最长段的帧数;浊、清音帧数和段数;语速;
131-250维:共振峰频率序列、带宽序列及其一阶、二阶差分序列的统计特征;共振峰频率序列的一阶、二阶抖动;
251-406维:MFCC及其一阶差分序列的统计特征;
其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围。
进一步的,在本发明中,步骤二中的规整化处理的方法如下:
规整化前的所有语音样本中的任一样本为x(0),其中N个训练样本组成的训练样本集为设为的第j个特征元素(i=1,2,...,N);
对于任一语音样本x(0),特征j对应元素的规整化处理的计算公式为:
其中表示X(0)第j行中最大的元素,表示X(0)第j行中最小的元素;
将任一语音样本中的所有的元素按照上述计算公式进行计算得到任一语音样本x(0)规整化语音情感特征向量集其中,属于训练样本集的语音样本规整化语音情感特征向量,组成训练样本的规整化语音情感特征向量集即其余为测试样本的语音样本规整化语音情感特征向量。
进一步的,在本发明中,步骤三中所述特征筛选的方法如下:
任一语音样本规整化语音情感特征向量中属于特征j的FDR值的计算公式为:
其中,分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的均值,分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的方差,Nc为情感的类数;
去除40~60个较小J(j)值对应的特征j,得到训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]和每个测试样本的特征筛选后语音情感特征向量
具体地,在本发明中,维数约简时根据采用的不同算法,具有不同的维数约简方法,其中,
LSPGL算法的图嵌入的优化形式为:
其中,
L为本征图的拉普拉斯矩阵且为N×N矩阵,
Lp为惩罚图的拉普拉斯矩阵且为N×N矩阵,
这里LLDA为线性判别分析的本征图的拉普拉斯矩阵,且LLDA=DLDA-WLDA,其中N×N对角阵DLDA中第i行j列的元素的形式为WLDA为线性判别分析的本征图邻接阵,且
H为主成分分析的本征图的拉普拉斯矩阵,同时H也为线性判别分析的惩罚图的拉普拉斯矩阵,且其中e为N维列向量,I为N×N的单位阵;
为规范化的说话人本征图的拉普拉斯矩阵:
这里Lis为说话人本征图的拉普拉斯矩阵,且Lis=Dis-Wis,其中Dis为Lis的节点度对角阵,且Dis中第i行j列的元素的形式为Wis为说话人本征图的邻接阵,且式中“ο”表示两个矩阵的对应位置元素相乘的运算符;其中对于N维列向量ec的任一元素,其对应的训练样本属于类c时该元素为1,否则该元素为0;对于N维列向量的任一元素,其对应的训练样本属于说话人cs时该元素为1,否则该元素为0;
为规范化的说话人的惩罚图的拉普拉斯矩阵:
这里Lps为说话人惩罚图的拉普拉斯矩阵,且Lps=Dps-Wps,其中Dps为Lps的节点度对角阵,且Dps中第i行j列的元素的形式为Wps为说话人惩罚图的邻接阵,且其中“ο”表示两个矩阵的对应位置元素相乘的运算符;N×N阵WkNN为训练样本集的k近邻图的邻接阵,其对应的第i行、第j列元素为:NK(i)、NK(j)分别表示样本点i、j的k近邻点集,其中k=1,2,3,...;
参数0≤γ1≤1、0≤γ2≤1,且γ1和γ2通常取值范围为0.1~0.6;
n维列向量a为线性投影映射向量,aT为a的转置;
KSPGL算法的图嵌入的优化形式为:
其中,
N维列向量α为核投影映射向量,αT为α的转置;
Gram阵K中元素选用Gauss核函数,K中i行j列元素形式为:Kij=K(xi,xj)=exp(-||xi-xj||2/σ2),其中σ2为Gauss核参数,控制核函数的平缓程度;这里的Gram阵K满足K=φT(X)φ(X),φ(X)=[φ(x1) φ(x2) ... φ(xN)]为原特征下的样本集X向高维再生核Hilbert空间的映射,φT(X)为φ(X)的转置矩阵;
L和Lp的含义与LSPGL的图嵌入的优化形式中相同;
本发明中提出的SPGL算法(包括LSPGL和KSPGL)基于说话人标签信息,在语音情感识别研究中表现较好的LDA算法基础上,加入上述权重成分,形成新的嵌入图,其对应的本征图和惩罚图的拉普拉斯阵可以分别表示为:
其中,图的线性组合系数γ1和γ2,对说话人本征图、惩罚图,与LDA嵌入图之间的关系进行加权,一般组合系数取值的大致范围可以通过经验得到,更精确的取值可由交叉验证得到。
利用广义特征值问题GEP对LSPGL或KSPGL的优化形式进行求解:首先预先使用奇异值分解将广义特征值问题GEP转化为普通的特征值问题,然后求解优化形式:
求解LSPGL算法的优化形式时,得到线性降维投影向量a的求解a1,a2,...,am,所述各个求解a1,a2,...,am均两两相互正交,进而得到各个求解组成线性降维映射阵A=[a1,a2,...,am],m为维数约简后的特征维数;
求解KSPGL算法的优化形式时,得到核方法降维投影向量α的求解α1,α2,...,αm,所述各个求解α1,α2,...,αm均两两相互正交,进而得到各个求解组成核方法的降维映射阵m为维数约简后的特征维数。
有益效果:
本发明的独立于说话人语音情感识别方法,通过对语音样本划分为分别来自于不同说话人的训练样本集和测试样本集,对经过预处理的语音信号样本进行原始语音情感特征提取,继而进行特征筛选、维数约简和分类器分类。
由于原始语音情感特征中包含大量的与说话人类别相关的特征,如共振峰、MFCC、基音频率等类别的特征,而在语音情感识别中这些特征可能会对识别系统以及算法的性能产生不利的影响。鉴于此,在训练学习时需要对属于不同情感类别,并属于同一说话人且在其相互近邻域中的语音样本对权重进行一定的增加,可以抑制说话人特征的影响;同时,对于属于同一情感类别且属于不同说话人的语音样本对增加权重,可以突出同一语音情感的共性成分。
因此,本发明中提出的LSPGL算法或KSPGL算法,在维数约简阶段对训练样本使用LDA和说话人嵌入图的线性组合进行最优化运算,实现对独立于说话人语音情感识别中,特征维数约简过程的优化,提高了降维的有效性。
通过实验证明,相比于现有的识别方法,本发明的方法在语音情感特征空间降维过程中增加了降维的有效性,使得独立于说话人语音情感识别系统的识别率性能得到了提升。
附图说明
图1为本发明的流程图;
图2为使用1NN分类器时,Berlin语音情感数据库中,几种使用线性维数约简的识别算法,在使用不同降维维数时LOSO方法识别率的比较;
图3为使用SVM分类器时,Berlin语音情感数据库中,几种使用线性维数约简的识别算法,在使用不同降维维数时LOSO方法识别率的比较;
图4为Berlin语音情感数据库中,几种维数约简算法使用LOSO方法测试,得到的低维情况最优识别率比较;
图5为eNTERFACE’05数据库中语音信号部分,几种维数约简算法使用LOSO方法测试,得到的低维情况最优识别率比较。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示,为本发明的流程图。
一种基于说话人惩罚的独立于说话人语音情感识别方法,包括以下步骤:
将语音情感数据库中若干个语音样本按照不同说话人划分为训练样本集和测试样本集,且训练集中任一样本所属的说话人在测试集中不出现,其中每个语音样本均具有语音情感标签信息和说话人标签信息,包括顺序执行的以下步骤:
步骤一,语音样本预处理:对语音样本进行预加重,然后对预加重后的语音样本的时域信号进行分帧;
步骤二,语音情感特征提取:对经步骤一处理后的每个语音样本,分别提取其能量、基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音样本的原始语音情感特征向量;所述6大类语音情感特征分布如下:
1-80维:能量序列的统计特征和一阶、二阶抖动;能量一阶、二阶差分序列的统计特征;三个不同频带内的能量序列及其一阶、二阶差分序列分别的统计特征;三个不同频带内能量序列的一阶、二阶抖动;
81-101维:基音序列的统计特征和一阶、二阶抖动;基音一阶、二阶差分序列的统计特征;基音序列斜率;
102-121维:过零率序列及其一阶、二阶差分序列的统计特征;
122-130维:浊音帧数与清音帧数的比;浊音段数与清音段数的比;浊、清音最长段的帧数;浊、清音帧数和段数;语速;
131-250维:共振峰频率序列、带宽序列及其一阶、二阶差分序列的统计特征;共振峰频率序列的一阶、二阶抖动;
251-406维:MFCC及其一阶差分序列的统计特征;
其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围。
对上述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量;这里规整化的具体处理方法如下:
规整化前的所有语音样本中的任一样本为x(0),其中N个训练样本组成的训练样本集为设为的第j个特征元素(i=1,2,...,N);
对于任一语音样本x(0),特征j对应元素的规整化处理的计算公式为:
其中表示X(0)第j行中最大的元素,表示X(0)第j行中最小的元素;
将任一语音样本中的所有的元素按照上述计算公式进行计算得到任一语音样本x(0)规整化语音情感特征向量集其中,属于训练样本集的语音样本规整化语音情感特征向量,组成训练样本的规整化语音情感特征向量集即其余为测试样本的语音样本规整化语音情感特征向量。
步骤三,特征筛选:使用训练样本语音情感标签信息,对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选,去除规整化语音情感特征向量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向量;特征筛选的具体方法为:任一语音样本规整化语音情感特征向量中属于特征j的FDR值的计算公式为:
其中,分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的均值,分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的方差,Nc为情感的类数;
去除40~60个较小J(j)值对应的特征j,得到训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]和每个测试样本的特征筛选后语音情感特征向量
步骤四,基于说话人惩罚的特征维数约简:设经步骤三特征筛选得到训练样本特征筛选后语音情感特征向量集X=[x1,x2,...,xN],利用训练样本的语音情感标签信息和说话人标签信息,采用本发明提出的LSPGL算法或KSPGL算法对X进行维数约简训练,生成LSPGL算法对应的线性降维投影矩阵A或KSPGL算法对应的核方法降维映射阵P,同时分别求解得到X的线性映射低维样本集ATX或核映射低维样本集PTK,其中K为训练样本集的Gram阵,选用Gauss核函数;具体的,
维数约简时,LSPGL算法的图嵌入的优化形式为:
其中,
L为本征图的拉普拉斯矩阵且为N×N矩阵,
Lp为惩罚图的拉普拉斯矩阵且为N×N矩阵,
这里LLDA为线性判别分析的本征图的拉普拉斯矩阵,且LLDA=DLDA-WLDA,其中N×N对角阵DLDA中第i行j列的元素的形式为WLDA为线性判别分析的本征图邻接阵,且
H为主成分分析的本征图的拉普拉斯矩阵,同时H也为线性判别分析的惩罚图的拉普拉斯矩阵,且其中e为N维列向量,I为N×N的单位阵;
为规范化的说话人本征图的拉普拉斯矩阵:
这里Lis为说话人本征图的拉普拉斯矩阵,且Lis=Dis-Wis,其中Dis为Lis的节点度对角阵,且Dis中第i行j列的元素的形式为Wis为说话人本征图的邻接阵,且其中“ο”表示两个矩阵的对应位置元素相乘的运算符;对于N维列向量ec的任一元素,其对应的训练样本属于类c时该元素为1,否则该元素为0;对于N维列向量的任一元素,其对应的训练样本属于说话人cs时该元素为1,否则该元素为0;
为规范化的说话人的惩罚图的拉普拉斯矩阵:
这里Lps为说话人惩罚图的拉普拉斯矩阵,且Lps=Dps-Wps,其中Dps为Lps的节点度对角阵,且Dps中第i行j列的元素的形式为Wps为说话人惩罚图的邻接阵,且其中“ο”表示两个矩阵的对应位置元素相乘的运算符;N×N阵WkNN为训练样本集的k近邻图的邻接阵,其对应的第i行、第j列元素为:NK(i)、NK(j)分别表示样本点i、j的k近邻点集,其中k=1,2,3,...;
参数0≤γ1≤1、0≤γ2≤1,且γ1和γ2通常取值范围为0.1~0.6;
n维列向量a为线性投影映射向量,aT为a的转置;
维数约简时,KSPGL算法的图嵌入的优化形式为:
其中,
N维列向量α为核投影映射向量,αT为α的转置;
Gram阵K中元素选用Gauss核函数,K中i行j列元素形式为:Kij=K(xi,xj)=exp(-||xi-xj||2/σ2),其中σ2为Gauss核参数,控制核函数的平缓程度;这里的Gram阵K满足K=φT(X)φ(X),φ(X)=[φ(x1) φ(x2) ... φ(xN)]为原特征下的样本集X向高维再生核Hilbert空间的映射,φT(X)为φ(X)的转置矩阵;
L和Lp的含义与LSPGL的图嵌入的优化形式中相同;
上述LSPGL算法或KSPGL算法的优化形式进行求解可以利用广义特征值问题GEP进行:首先预先使用奇异值分解将广义特征值问题GEP转化为普通的特征值问题,然后求解优化形式:
求解LSPGL算法的优化形式时,得到线性降维投影向量a的求解a1,a2,...,am,所述各个求解a1,a2,...,am均两两相互正交,进而得到各个求解组成线性降维映射阵A=[a1,a2,...,am],m为维数约简后的特征维数;
求解KSPGL算法的优化形式时,得到核方法降维投影向量α的求解α1,α2,...,αm,所述各个求解α1,α2,...,αm均两两相互正交,进而得到各个求解组成核方法的降维映射阵m为维数约简后的特征维数。
步骤五,训练分类器:对多类SVM分类器进行训练或直接选取1NN分类器;其中多类SVM分类器进行训练的方法为:设训练样本集中有N个分属于Nc个种类的语音样本,在训练样本集中任取两个种类的语音样本,进行训练得到1个两类SVM分类器,每两类重复该训练过程,共得到Nc(Nc-1)/2个两类SVM分类器;1NN分类器不需要先训练即可使用,同样是本领域内的现有技术。
步骤六,测试:对于每个测试样本,使用经步骤五训练完成的分类器对每个测试样本进行测试,具体包括顺序执行的以下步骤:
(1)对经步骤三得到的每个测试样本的特征筛选后语音情感特征向量使用线性降维投影矩阵A或核方法降维映射阵P进行维数约简,得到经过线性维数约简后的低维样本或经过核方法维数约简后的低维样本PTKi,对于一个测试样本 Gram阵K中的核函数选用步骤四中所述的Gauss核函数;
(2)使用分类器对或PTKi进行分类,选择多类SVM分类器或者1NN分类器进行分类:
利用多类SVM分类器分类的方法为:将每个测试样本的低维样本或PTKi经所有得到的两类SVM分类器分类之后得到Nc(Nc-1)/2个判断结果,得票最多的判断结果即判决为对应的测试样本所属的情感类别;若出现相同最多票数,则仅选择由最多票数所对应的情感类别两两组成的两类SVM分类器重新对该测试样本的低维样本进行判断,得到新一轮判断结果,上述方法依次递减两类SVM分类器的个数直到得到一个唯一的最多票数即判决为对应测试样本所属的情感类别;如一个测试样本的低维样本按此过程仍有相同最大票数的类别判决时,则在这几类中随机决定对应测试样本的类别;
利用1NN分类器分类的方法为:使用全体训练样本,对于每一个测试样本,找到与其欧式距离最近的训练样本,使用该训练样本对应的类别标签作为该测试样本的分类判决结果。
下面对通过实验的方法将本发明的方法与现有的具有代表性的识别方法包括主成分分析(PCA)、线性判别分析(LDA)、线性判别嵌入(LDE)进行识别率对比。
实验采用Berlin语音情感数据库(EMO-DB)以及eNTERFACE’05数据库的语音部分。
Berlin数据库中包括7类情感:害怕、厌恶、喜悦、厌倦、中性、悲伤、生气。实验者为10个专业演员,包括5男5女,在录制数据库时采用10个不同的德语短句。语音样本的采样频率为16kHz,量化位数为16bit。
eNTERFACE’05数据库中包含有喜悦、悲伤、害怕、厌恶、惊讶、生气等6类情感状态,相比于EMO-DB库,不含有平静、厌倦类别,而有惊讶的情感类别。数据库共有42个说话人,采用英语进行录制,同时获取语音和表情部分的数据,即双模态数据库,这里仅使用语音部分的内容。由于语料库较大,所以实验中选择其中15个说话人所属的样本。相对于广泛使用的EMO-DB库,eNTERFACE’05数据库在语音情感识别方面具有更大的难度。
所述LSPGL、PCA、LDA、LDE等4种算法为采用线性数据映射的降维方法,其中PCA中不含监督信息,LDA、LDE、LSPGL含有监督信息;背景中提到的LLE、Isomap、LPP等算法不含监督信息,其识别率一般情况下均低于含有监督信息的算法,故这里没有针对这些算法做相关实验。PCA和LDA常用于语音情感识别,而LDE已在人脸识别等图像处理领域内得到了应用。
首先,针对独立于说话人语音情感识别的应用需求,使用留一说话人(Leave OneSpeaker Out,简称LOSO)方法,根据每个样本对应的说话人类别(设共有个说话人),将实验数据库划分为包含1个说话人所有样本的测试集,以及包含其他所有个说话人对应样本的训练集。这样,共有个训练、测试样本集的划分方法,取每次划分后的测试样本中识别率的平均值,就得到了最终的实验识别率结果。
具体的,首先比较本发明的方法在不同维度子空间内和其他一些现有算法之间识别率的高低。利用本发明所述LSPGL算法对EMO-DB库中的语音情感样本使用LOSO方法进行识别,得到如图2、图3所示的识别率随约简的维数变化的图像。其中图2为使用1NN分类器时,而图3则为使用多类SVM分类器时的情况。由图2和图3可以看出,在语音情感特征的低维子空间内,相对于其他一些常用的线性映射的子空间学习算法,本发明中所提出的LSPGL算法在使用不同分类器时均可以取得较高的识别率。这里使用的是本发明中的LSPGL算法,由于KSPGL算法是基于LSPGL的算法的基础上,使用了采取核数据映射方式而形成的,理论上会进一步提高了语音情感识别的识别率。
进一步的,加入eNTERFACE’05数据库,并加入采用Gauss核数据映射的KSPGL算法进行比较,重复整个实验过程,得到实验中各算法在低特征维数时的最高识别率及其对应维数,并以“最高识别率/维数”的形式表示,其中因原维数下维数信息恒定,故原特征一行对应的实验结果以“最高识别率/”的形式表示,最终制成表1。
表1
由表1和图2、图3可知,LSPGL算法、KSPGL算法在独立于说话人的语音情感识别中相比其他现有采用维数约简的识别方法(PCA、LDA、LDE等),在使用同样分类器(SVM、1NN)的条件下,在不同的语音情感数据库中,都能够取得较优的识别效果,从而更适用于独立于说话人的语音情感识别。
再进一步,在不同的语音情感数据库中,比较不同分类器对识别率的影响。如图4、图5,SVM分类器相比于1NN分类器在大部分情况下都能取得较好的效果,但SVM分类器迭代过程中所需的计算量较大,尤其是类数较多时。而1NN分类器则性能较低,较大程度上依赖于维数约简模块的性能,但所需计算量较小。使用不同分类器时需要综合各方面进行考虑。
综上所述,本发明中所采用的SPGL算法能够使用说话人惩罚信息,有效地提高语音情感识别效果。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (2)
1.一种基于说话人惩罚的独立于说话人语音情感识别方法,其特征在于:
将语音情感数据库中若干个语音样本按照不同说话人划分为训练样本集和测试样本集,且训练集中任一样本所属的说话人在测试集中不出现,其中每个语音样本均具有语音情感标签信息和说话人标签信息,包括顺序执行的以下步骤:
步骤一,语音样本预处理:对语音样本进行预加重,然后对预加重后的语音样本的时域信号进行分帧;
步骤二,语音情感特征提取:对经步骤一处理后的每个语音样本,分别提取其能量、基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音样本的原始语音情感特征向量;对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量;
步骤二中的规整化处理的方法如下:
规整化前的所有语音样本中的任一样本为x(0),其中N个训练样本组成的训练样本集为设为的第j个特征元素(i=1,2,...,N);
对于任一语音样本x(0),特征j对应元素的规整化处理的计算公式为:
其中表示X(0)第j行中最大的元素,表示X(0)第j行中最小的元素;
将任一语音样本中的所有的元素按照上述计算公式进行计算得到任一语音样本x(0)规整化语音情感特征向量集其中,属于训练样本集的语音样本规整化语音情感特征向量,组成训练样本的规整化语音情感特征向量集即其余为测试样本的语音样本规整化语音情感特征向量;
步骤三,特征筛选:使用训练样本语音情感标签信息,对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选,去除规整化语音情感特征向量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向量;
步骤三中所述特征筛选的方法如下:
任一语音样本规整化语音情感特征向量中属于特征j的FDR值的计算公式为:
其中,分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的均值,分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的方差,Nc为情感的类数;
去除40~60个较小J(j)值对应的特征j,得到训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]和每个测试样本的特征筛选后语音情感特征向量
步骤四,基于说话人惩罚的特征维数约简:经步骤三特征筛选得到训练样本特征筛选后语音情感特征向量集X=[x1,x2,...,xN],利用训练样本的语音情感标签信息和说话人标签信息,采用LSPGL算法或KSPGL算法对X进行维数约简训练,生成LSPGL算法对应的线性降维投影矩阵A或KSPGL算法对应的核方法降维映射阵Ρ,同时分别求解得到X的线性映射低维样本集ATX或核映射低维样本集PTK,其中K为训练样本集的Gram阵,选用Gauss核函数;
维数约简时,LSPGL算法的图嵌入的优化形式为:
其中,
L为本征图的拉普拉斯矩阵且为N×N矩阵,
Lp为惩罚图的拉普拉斯矩阵且为N×N矩阵,
这里LLDA为线性判别分析的本征图的拉普拉斯矩阵,且LLDA=DLDA-WLDA,其中N×N对角阵DLDA中第i行j列的元素的形式为为线性判别分析的本征图邻接阵,且
H为主成分分析的本征图的拉普拉斯矩阵,同时H也为线性判别分析的惩罚图的拉普拉斯矩阵,且其中e为N维列向量,I为N×N的单位阵;
为规范化的说话人本征图的拉普拉斯矩阵:
这里Lis为说话人本征图的拉普拉斯矩阵,且Lis=Dis-Wis,其中Dis为Lis的节点度对角阵,且Dis中第i行j列的元素的形式为Wis为说话人本征图的邻接阵,且其中“ο”表示两个矩阵的对应位置元素相乘的运算符;对于N维列向量ec的任一元素,其对应的训练样本属于类c时该元素为1,否则该元素为0;对于N维列向量的任一元素,其对应的训练样本属于说话人cs时该元素为1,否则该元素为0;
为规范化的说话人的惩罚图的拉普拉斯矩阵:
这里Lps为说话人惩罚图的拉普拉斯矩阵,且Lps=Dps-Wps,其中Dps为Lps的节点度对角阵,且Dps中第i行j列的元素的形式为Wps为说话人惩罚图的邻接阵,且其中“ο”表示两个矩阵的对应位置元素相乘的运算符;N×N阵WkNN为训练样本集的k近邻图的邻接阵,其对应的第i行、第j列元素为:NK(i)、NK(j)分别表示样本点i、j的k近邻点集,其中k=1,2,3,...;
参数0≤γ1≤1、0≤γ2≤1,且γ1和γ2通常取值范围为0.1~0.6;
n维列向量a为线性投影映射向量,aT为a的转置;
维数约简时,KSPGL算法的图嵌入的优化形式为:
其中,
N维列向量α为核投影映射向量,αT为α的转置;
Gram阵K中元素选用Gauss核函数,K中i行j列元素形式为:Kij=K(xi,xj)=exp(-||xi-xj||2/σ2),其中σ2为Gauss核参数,控制核函数的平缓程度;这里的Gram阵K满足K=φT(X)φ(X),φ(X)=[φ(x1) φ(x2) ... φ(xN)]为原特征下的样本集X向高维再生核Hilbert空间的映射,φT(X)为φ(X)的转置矩阵;
L和Lp的含义与LSPGL的图嵌入的优化形式中相同;
利用广义特征值问题GEP对LSPGL或KSPGL的优化形式进行求解:首先预先使用奇异值分解将广义特征值问题GEP转化为普通的特征值问题,然后求解优化形式:
求解LSPGL算法的优化形式时,得到线性降维投影向量a的求解a1,a2,...,am,所述各个求解a1,a2,...,am均两两相互正交,进而得到各个求解组成线性降维映射阵A=[a1,a2,...,am],m为维数约简后的特征维数;
求解KSPGL算法的优化形式时,得到核方法降维投影向量α的求解α1,α2,...,αm,所述各个求解α1,α2,...,αm均两两相互正交,进而得到各个求解组成核方法的降维映射阵m为维数约简后的特征维数;
步骤五,训练分类器:对多类SVM分类器进行训练或直接选取1NN分类器;其中多类SVM分类器进行训练的方法为:设训练样本集中有N个分属于Nc个种类的语音样本,在训练样本集中任取两个种类的语音样本,进行训练得到1个两类SVM分类器,每两类重复该训练过程,共得到Nc(Nc-1)/2个两类SVM分类器;
步骤六,测试:对于每个测试样本,使用经步骤五训练完成的分类器对每个测试样本进行测试,具体包括顺序执行的以下步骤:
(1)对经步骤三得到的每个测试样本的特征筛选后语音情感特征向量使用线性降维投影矩阵A或核方法降维映射阵P进行维数约简,得到经过线性维数约简后的低维样本或经过核方法维数约简后的低维样本PTKi,对于一个测试样本 Gram阵K中的核函数选用步骤四中所述的Gauss核函数;
(2)使用分类器对或PTKi进行分类,选择多类SVM分类器或者1NN分类器进行分类:
利用多类SVM分类器分类的方法为:将每个测试样本的低维样本或PTKi经所有得到的两类SVM分类器分类之后得到Nc(Nc-1)/2个判断结果,得票最多的判断结果即判决为对应的测试样本所属的情感类别;若出现相同最多票数,则仅选择由最多票数所对应的情感类别两两组成的两类SVM分类器重新对该测试样本的低维样本进行判断,得到新一轮判断结果,上述方法依次递减两类SVM分类器的个数直到得到一个唯一的最多票数即判决为对应测试样本所属的情感类别;如一个测试样本的低维样本按此过程仍有相同最大票数的类别判决时,则在这几类中随机决定对应测试样本的类别;
利用1NN分类器分类的方法为:对于每一个测试样本,在全体训练样本中找到与其欧式距离最近的训练样本,使用该训练样本对应的类别标签作为该测试样本的分类判决结果。
2.根据权利要求1所述的一种基于说话人惩罚的独立于说话人语音情感识别方法,其特征在于:步骤二中原始语音情感特征向量中的语音情感特征分布如下:
1-80维:能量序列的统计特征和一阶、二阶抖动;能量一阶、二阶差分序列的统计特征;三个不同频带内的能量序列及其一阶、二阶差分序列分别的统计特征;三个不同频带内能量序列的一阶、二阶抖动;
81-101维:基音序列的统计特征和一阶、二阶抖动;基音一阶、二阶差分序列的统计特征;基音序列斜率;
102-121维:过零率序列及其一阶、二阶差分序列的统计特征;
122-130维:浊音帧数与清音帧数的比;浊音段数与清音段数的比;浊、清音最长段的帧数;浊、清音帧数和段数;语速;
131-250维:共振峰频率序列、带宽序列及其一阶、二阶差分序列的统计特征;共振峰频率序列的一阶、二阶抖动;
251-406维:MFCC及其一阶差分序列的统计特征;
其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410078383.4A CN103854645B (zh) | 2014-03-05 | 2014-03-05 | 一种基于说话人惩罚的独立于说话人语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410078383.4A CN103854645B (zh) | 2014-03-05 | 2014-03-05 | 一种基于说话人惩罚的独立于说话人语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103854645A CN103854645A (zh) | 2014-06-11 |
CN103854645B true CN103854645B (zh) | 2016-08-24 |
Family
ID=50862216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410078383.4A Active CN103854645B (zh) | 2014-03-05 | 2014-03-05 | 一种基于说话人惩罚的独立于说话人语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103854645B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104156628B (zh) * | 2014-08-29 | 2017-05-31 | 东南大学 | 一种基于多核学习判别分析的舰船辐射信号识别方法 |
CN105070300A (zh) * | 2015-08-12 | 2015-11-18 | 东南大学 | 一种基于说话人标准化变换的语音情感特征选择方法 |
CN105139867A (zh) * | 2015-08-12 | 2015-12-09 | 东南大学 | 基于拼音韵母说话内容标准化语音情感特征选择方法 |
CN105609116B (zh) * | 2015-12-23 | 2019-03-05 | 东南大学 | 一种语音情感维度区域的自动识别方法 |
CN106920558B (zh) * | 2015-12-25 | 2021-04-13 | 展讯通信(上海)有限公司 | 关键词识别方法及装置 |
CN107341474A (zh) * | 2017-07-06 | 2017-11-10 | 淮海工学院 | 一种基于扩散映射的侧扫声呐图像目标非监督探测方法 |
CN107886942B (zh) * | 2017-10-31 | 2021-09-28 | 东南大学 | 一种基于局部惩罚随机谱回归的语音信号情感识别方法 |
CN108010516A (zh) * | 2017-12-04 | 2018-05-08 | 广州势必可赢网络科技有限公司 | 一种语义独立的语音情绪特征识别方法及装置 |
CN109166591B (zh) * | 2018-08-29 | 2022-07-19 | 昆明理工大学 | 一种基于音频特征信号的分类方法 |
CN111145785A (zh) * | 2018-11-02 | 2020-05-12 | 广州灵派科技有限公司 | 一种基于语音的情绪识别方法及装置 |
CN110120231B (zh) * | 2019-05-15 | 2021-04-02 | 哈尔滨工业大学 | 基于自适应半监督非负矩阵分解的跨语料情感识别方法 |
CN111027609B (zh) * | 2019-12-02 | 2022-06-03 | 武汉大学 | 一种图像数据加权分类方法和系统 |
CN110929801B (zh) * | 2019-12-02 | 2022-05-13 | 武汉大学 | 一种基于改进的Euclid距离KNN分类方法和系统 |
CN111833887A (zh) * | 2020-07-14 | 2020-10-27 | 山东理工大学 | 一种基于局部保持判别投影的说话人确认方法 |
CN112861984B (zh) * | 2021-02-25 | 2022-07-01 | 西华大学 | 一种基于特征融合与集成学习的语音情感分类方法 |
CN113409821B (zh) * | 2021-05-27 | 2023-04-18 | 南京邮电大学 | 一种语音信号未知情绪状态识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1975856A (zh) * | 2006-10-30 | 2007-06-06 | 邹采荣 | 一种基于支持向量机的语音情感识别方法 |
CN102663432A (zh) * | 2012-04-18 | 2012-09-12 | 电子科技大学 | 结合支持向量机二次识别的模糊核聚类语音情感识别方法 |
CN103544963A (zh) * | 2013-11-07 | 2014-01-29 | 东南大学 | 一种基于核半监督判别分析的语音情感识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE60213195T8 (de) * | 2002-02-13 | 2007-10-04 | Sony Deutschland Gmbh | Verfahren, System und Computerprogramm zur Sprach-/Sprechererkennung unter Verwendung einer Emotionszustandsänderung für die unüberwachte Anpassung des Erkennungsverfahrens |
-
2014
- 2014-03-05 CN CN201410078383.4A patent/CN103854645B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1975856A (zh) * | 2006-10-30 | 2007-06-06 | 邹采荣 | 一种基于支持向量机的语音情感识别方法 |
CN102663432A (zh) * | 2012-04-18 | 2012-09-12 | 电子科技大学 | 结合支持向量机二次识别的模糊核聚类语音情感识别方法 |
CN103544963A (zh) * | 2013-11-07 | 2014-01-29 | 东南大学 | 一种基于核半监督判别分析的语音情感识别方法 |
Non-Patent Citations (3)
Title |
---|
基于模糊核判别分析的语音情感识别;夏淑兰 等;《科学技术与工程》;20131031;第13卷(第30期);8928-8932 * |
基于特征空间分解与融合的语音情感识别;黄程韦 等;《信号处理》;20100131;第26卷(第6期);835-842 * |
实用语音情感的特征分析与识别的研究;黄程韦 等;《电子与信息学报》;20110131;第33卷(第1期);112-116 * |
Also Published As
Publication number | Publication date |
---|---|
CN103854645A (zh) | 2014-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103854645B (zh) | 一种基于说话人惩罚的独立于说话人语音情感识别方法 | |
CN103544963B (zh) | 一种基于核半监督判别分析的语音情感识别方法 | |
Latif et al. | Deep representation learning in speech processing: Challenges, recent advances, and future trends | |
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
Lee et al. | Unsupervised feature learning for audio classification using convolutional deep belief networks | |
US9368110B1 (en) | Method for distinguishing components of an acoustic signal | |
Dennis | Sound event recognition in unstructured environments using spectrogram image processing | |
Ke et al. | Speech emotion recognition based on SVM and ANN | |
CN112562741B (zh) | 一种基于点积自注意力卷积神经网络的歌声检测方法 | |
Sunny et al. | Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms | |
Han et al. | Speech emotion recognition based on Gaussian kernel nonlinear proximal support vector machine | |
CN103336842B (zh) | 一种基于聚类和投票机制的主动学习初始样本选择方法 | |
Mohanty et al. | Segment based emotion recognition using combined reduced features | |
Shivakumar et al. | Simplified and supervised i-vector modeling for speaker age regression | |
Kamaruddin et al. | Features extraction for speech emotion | |
US6192353B1 (en) | Multiresolutional classifier with training system and method | |
CN116631375A (zh) | 一种基于自监督语音表征的方言分类方法和系统 | |
Sunny et al. | Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam | |
CN116382780A (zh) | 控制指令的识别方法、装置、存储介质及车载控制系统 | |
Sunny et al. | Development of a speech recognition system for speaker independent isolated Malayalam words | |
Kaushik et al. | End-to-end speaker age and height estimation using attention mechanism and triplet loss | |
Nakashika et al. | Complex-valued restricted Boltzmann machine for speaker-dependent speech parameterization from complex spectra | |
CN112465054A (zh) | 一种基于fcn的多变量时间序列数据分类方法 | |
CN108242239A (zh) | 一种声纹识别方法 | |
CN107886942B (zh) | 一种基于局部惩罚随机谱回归的语音信号情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |