CN110400579B - 基于方向自注意力机制和双向长短时网络的语音情感识别 - Google Patents
基于方向自注意力机制和双向长短时网络的语音情感识别 Download PDFInfo
- Publication number
- CN110400579B CN110400579B CN201910555688.2A CN201910555688A CN110400579B CN 110400579 B CN110400579 B CN 110400579B CN 201910555688 A CN201910555688 A CN 201910555688A CN 110400579 B CN110400579 B CN 110400579B
- Authority
- CN
- China
- Prior art keywords
- self
- output
- attention
- network
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 34
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 15
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 13
- 230000008451 emotion Effects 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims abstract description 10
- 230000005236 sound signal Effects 0.000 claims abstract description 6
- 238000011176 pooling Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 19
- 230000003595 spectral effect Effects 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 230000004907 flux Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 238000012360 testing method Methods 0.000 abstract description 8
- 238000012795 verification Methods 0.000 abstract description 5
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 230000009467 reduction Effects 0.000 abstract description 2
- 230000000306 recurrent effect Effects 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 238000011423 initialization method Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000009849 deactivation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000013875 Heart injury Diseases 0.000 description 1
- 206010049976 Impatience Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000035 biogenic effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013400 design of experiment Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于方向自注意力机制的双向长短时网络的语音情感识别系统,包括如下步骤:先对原始的音频信号提取声学特征,再输入到正反向长短时记忆网络中,输出正反向特征;然后通过自注意力机制操作得到正反向自注意力加权后的输出;对所得到的正反向自注意力加权后的输出分别做均值池化和拼接,并输入到softmax层,将所得到的softmax层的输出和类标一起输入到交叉熵损失函数中,通过验证集选出最适合的网络,最后将测试集的数据放入到训练好的网络中得到最后的情感类别。本发明把自注意力机制引入到循环神经网络中,能够更加容易发现句子内部信号的相关性,并对自注意力机制加入了方向机制,解决了因为信息的缺乏导致分类性能下降的问题。
Description
技术领域
本发明涉及语音情感识别技术领域,具体地说,本发明涉及一种基于方向自注意力机制和双向长短时网络的语音情感识别系统。
背景技术
近年来,人机交互引起了越来越多数据科学家的兴趣。为了让人与机器之间的交流更加自然,其目标主要有两个方面:一是让机器理解人类说话的意思,二是让机器识别出人类说话时的情绪。如今计算机可以理解人类说话的意思,但是让机器识别出语音中的情绪却有较大的挑战。
在早期的时候,研究者们通过提取语音信号特征,再利用机器学习分类器对其进行分类。在21世纪初,研究者们利用高斯混合模型或者隐马尔可夫模型来进行分类,之后由于支持向量机的优秀表现,研究者们将分类器替换成了支持向量机,而目前该算法经常作为语音情感识别领域的基线算法。紧接着,由于神经网络的发展,研究者们发现通过神经网络提取高层次特征,再放入别的分类器中(诸如支持向量机和高斯混合模型等等)能够取得不错的效果。
尽管近年来人们利用深度学习技术来分析语音中的情绪变化并取得了不错的效果,但是一般的方法并不能很好地区分语音中的浊音帧和清音帧。而目前处理这种问题的方法主要分为两大类:第一类是手动去除清音帧,第二类是利用算法自适应地学习出哪些是清音帧,哪些是浊音帧。第一类方法通常是根据 pitch来识别,但是这种方法费时费力,并且会较大程度地破坏语音数据的时序性,所以该方法虽然可用,但是有一定的缺陷。第二类方法是利用某种自适应的方法来对清音帧赋予较低的权重,常用的方法包括注意力机制和CTC loss方法。由于CTC loss方法是分配离散权重,其会将非发声段的权重强制地归为0或者将发声段的权重强制地归为1,但是人类情绪的表达往往是循序渐进的,所以对其分配连续权重才是正确可取的方法,而注意力机制恰恰可以很好地做到这一点。
本发明和传统的注意力机制不同,传统的注意力机制只是对时间维度上的数据作softmax变换,得到时序上的权重,这种方法虽然有一定的效果,但是并不能很好地利用信号数据。而本发明所采用的自注意力机制是通过数据自身和自身之间的相似度做softmax变换得到的,其权重矩阵是通过信号之间的内部信息所得到的,能够更加有效地利用句子内部信息。
发明内容
技术问题:本发明所要解决的技术问题是提供一种能够分析语音信号情绪的算法,通过在双向长短时网络后加入自注意力机制来发现信号内部的相关性,进而控制每个时序帧的重要程度。自注意力机制能够降低对分类性能不利的时序帧的影响,并且让网络更加关注对分类性能帮助较大的时序帧,进而提高分类器在语音情感数据集上的分类精度。
技术方案:首先,将原始数据分为训练集、验证集和测试集。由于语音数据的时序性,本发明通过双向长短时记忆网络对语音特征训练集数据进行解码,再对解码后两个方向的数据用自注意力机制方法对每一个时序进行加权,最后把加权输出的结果和真实的类标放入到交叉熵损失函数中。通过训练集获得模型权重后,用验证集对模型进行参数选择得到性能最好的模型,然后把测试集放入到所得到的最好的模型中进行测试,获得模型的分类性能。
本发明所采用的技术方案可以进一步细化。所述自注意力机制被定义为自身与自身做相似性度量,并通过该相似性度量得到每一时刻的权重结果。首先将双向长短时记忆网络输出的特征分别放入三个一维卷积中,得到三个不同的特征映射矩阵并对所得Q,K,V的最后一个维度D进行分割得到三个四维矩阵然后对所得到的Q′矩阵和K′矩阵做乘法运算并将所得的运算结果做softmax层变换得到权重矩阵W,最后把所得的权重矩阵W和另一个四维矩阵V′做点积,得到自注意力加权后的输出O,用公式定义为:
O=W*V′
合并所得输出O的第三维得到三维数据O′,正向自注意力加权后的输出定义为反向自注意力加权后的输出定义为对所得到的正向自注意力加权后的输出和反向自注意力加权后的输出分别做均值池化操作得到和并将所得到的和进行拼接,输出拼接后的将所输出的拼接后的输入到softmax层中得到softmax层的输出,将所得到的 softmax层的输出和类标一起输入到交叉熵损失函数中,通过反向传播算法调整整个网络结构。
有益效果:本发明与现有的技术相比,具有以下优点:
本发明的基于方向自注意力机制的双向长短时网络的语音情感识别系统,将自注意力机制引入到双向长短时网络中,通过注意力机制赋予语音时序帧的权重,而不需要手动删除无用的帧。本发明利用自注意力机制能够发现句子内部信号相关性的特点,其更加关注浊音帧,还能减弱对分类不利的清音帧的影响。此外,从不同方向来分析语音数据会进一步增加网络的鲁棒性,所以本发明的语音情感识别系统对自注意力机制加入了方向机制,通过解析LSTM正向和反向的高层次特征,解决了因为信息缺乏而导致的分类性能下降的问题。实验证明本发明的语音情感识别系统有着较为理想的分类性能。
附图说明
图1是本发明应用在语音情感识别领域的整体框架图;
图2是各类算法在IEMOCAP即兴表演数据集的混淆矩阵
具体实施方式
为了更清楚地描述本发明的内容,下面结合附图和具体实施例进行详细说明。本发明的基于方向自注意力机制的双向长短时网络(BLSTM-DSA)的语音情感识别系统,包括如下步骤:
步骤1:对原始的音频信号样本提取声学特征,声学特征包括韵律学特征:过零率和能量,谱相关特征:梅尔频率倒谱系数、频谱滚降点、频谱流量、频谱中心、频谱熵、频谱扩展度、色度特征以及色度特征标准差,用opensmile工具箱来提取这些声学特征,得到提取特征后的语音训练集数据;
步骤2:将所得到的提取特征后的语音训练集数据输入到正向长短时记忆网络和反向长短时记忆网络中,输入的训练语音数据定义为 其中N是训练样本的数量,yi=0代表该样本为生气类,yi=1代表该样本为高兴类,yi=2代表该样本为中性类,yi=3代表该样本为伤心类。长短时记忆网络的公式定义如下:
其中σ(·)代表sigmoid函数,它的输出区间是(0,1)。因为sigmoid函数输出区间的特殊性(类似于概率),所以它常常被看作是最接近正态分布的表现形式。 Wi,Wf,Wc,Wo是输入到状态(Input to State)可学习的权重矩阵,Ui,Uf,Uc,Uo是状态到状态(State toState)可学习矩阵,Vi,Vf,Vo是被称作窥视孔连接(Peephole Connections)的可学习矩阵,是第l层在时间步长t上的神经元。是输入门,它表示在当前时刻应该为候选的过去状态保存多少信息;是遗忘门,它表示在前一时间步的内部状态中应该遗忘多少信息;是输出门,它控制当前时刻内部状态必须输出多少信息到外部状态为了区别正向和反向输出,将最后一层正向特征输出定义为反向特征输出定义为
步骤3:将所输出的正向特征和反向特征分别做三次一维卷积,得到卷积后的输出其中正向的三维特征映射矩阵定义为反向的三维特征映射矩阵定义为 一维卷积操作比较适合分析语音数据,能够较好地利用语音数据的时序性,并且相比于其它算法,一维卷积在速度上占有一定的优势,而做三次卷积操作就是为了方便后续自注意力机制对自身进行分析。然后对Q,K,V的最后一个维度进行分割得到三个四维的特征矩阵,我们将这三个四维矩阵定义为其中第三维i的大小为对所得到的Q′,K′,V′做Scaled Dot-Product Attention运算,用公式定义为:
O=W*V′ (7)
将所得的拼接后的结果S输入到softmax层中,然后将softmax层的输出和类标一起输入到交叉熵损失函数中,通过反向传播算法调整整个网络结构。交叉熵损失函数定义为:
其中H为类别数,N为样本个数。
实验设计
实验数据集选取:本文使用了目前最流行的情感数据库(Interactive EmotionalDyadic Motion Capture,IEMOCAP)。IEMOCAP数据库是由美国南加州大学工程学院录制的,总共包括5个会话的视听记录,即音频、视频及动作捕捉数据,其总时长达到了12小时。每一个会话由一名男演员和女演员进行对话表演,并且表演分为剧本表演和即兴表演两种。根据统计,该数据库由10039句不同时长的语句组成,每一句话的平均长度为4.5秒,并由三位注释员对每一句话打入连续标签和离散标签。数据库主要关注五种情绪:愤怒、幸福、悲伤、中立和沮丧,然而,注释员在标注时并不局限于这些情绪。其中,不考虑类标的语音数据占比为38%,没有类标的语音数据占比为7%,无法确定类标的语音数据占比为15%,可确定类标的数据占比为40%。为了和其它研究者的研究成果相比较,我们只选取可确定类标的那部分中的生气、高兴、中性和伤心的语音数据。表1显示了IEMOCAP即兴表演数据集中每一个人在不同情感上分别有多少句话的描述。
表1 IEMOCAP即兴表演数据集
特征提取:在特征提取阶段,原始的信号将被转换为声学特征(包括韵律学特征、谱相关特征、音质特征以及深度学习算法提取特征)。本方法中选取韵律学特征包括过零率和能量,选取的谱相关特征包括梅尔频率倒谱系数、频谱滚降点、频谱流量、频谱中心、频谱熵、频谱扩展度、色度特征以及色度特征标准差,使用openSMILE作为语音特征提取工具。首先对16KHz采样频率的语音信号进行分帧加窗,本方法中语音窗用的是25ms汉明窗和10ms的帧移。12维的梅尔频率倒谱系数由对数傅立叶变换和26个滤波器计算得到。频谱滚降点设置为 0.85,这表明低于总体幅度值85%的频率将被考虑在内,频谱流量由当前帧和前一帧最小平方距离得到,频谱中心由计算频率的权重平均得到。频谱熵使用香农熵转变能量分布为概率分布。频谱延展度即频谱二阶中心距,是由计算各个时段频率到频谱中心的标准差得到。过零率是时域波通过时间轴的频率。能量由每一帧的加权平方得到,此外,能量熵是对能量加入了香农熵,来确定能量分布是否均匀。整个手工提取的低维特征包括梅尔频率倒谱系数、频谱滚降点、频谱流量、频谱中心、频谱熵、频谱扩展度、过零率、基音频率、能量、能量熵以及它们的一阶差分。最后每一帧都有68维特征,为了更好地适应神经网络,均值方差归一化会在本方法中使用。
网络训练方法:本方法采用说话人独立的训练策略,在IEMOCAP即兴表演数据集上选用留一组法(Leave One Group Out,LOGO)的训练策略,总共执行五轮,每一轮用其中四个会话中的句子作为训练集,剩下一个会话中,女演员录制的句子将作为测试集,男演员录制的句子将作为验证集。由于IEMOCAP即兴表演数据集中高兴情感的样本占少数,数据情感处于不平衡状态,所以在该数据集上对高兴样本进行了重采样。在网络训练方法上,BLSTM层数设置为2层,输入的线性转换初始化方法为Glorot均匀分布,循环层状态的线性转换初始化方法为正交分布初始化方法,每一层LSTM神经元个数设置为256,随机失活率设置为0.3。在自注意力机制中,一维卷积卷积核用的初始化方法为Glorot均匀分布,卷积核大小为1,个数为128,正则化方法为L2正则化,正则化参数设置为 3*10-7。注意力机制分割分片的个数8,损失函数选择交叉熵,batch_size设置为256,基学习率设置为0.0001,然后运用Nadam优化器进行参数优化。为了更好地训练网络将选择warm_up和滑动平均策略。warm_up策略即在训练的前 8个epoch按公式计算学习率。当学习率在前期呈线性增长的状态,就能够让网络更好地适应数据。滑动平均能够使模型在测试集上更加健壮,衰减率(Decay)设置为0.999。为了防止过拟合,在训练时还使用了早停策略,当验证集的loss在10个epoch内不再降低,停止网络训练,最后选择在验证集上loss最低的模型进行测试。为了能够加速收敛,在BLSTM 和Direction Self Attention之间加入了层规范化(Layer Normal)层。
验证指标:本方法选择加权平均召回率(Weighted Accuracy,WA)和未加权平均召回率(Unweighted Accuracy,UA)为模型的评价指标。WA是在整个测试集上分类正确的数量。为了评价数据类别不平衡性对整体模型的影响,UA即每种类别分类正确率的平均结果也被考虑在内。WA和UA可以被定义为:
对比算法:本方法采用的对比算法是CNN,LSTM,BLSTM。CNN的结构为两层卷积层,并且第一层卷积层卷积核的大小为2*2,步长为1,卷积核个数为10,第二层卷积层卷积核的大小为2*2,步长为1,卷积核个数为20,然后每一层卷积层后都会加上一层最大池化层,其大小为2*2,步长为2,最后加上两层神经元个数为128的全连接层,并且在全连接层之间加入了批规范化(Batch Normalization)层。在本实验中LSTM设置为两层,每一层神经元个数为256,随机失活率(dropout)设置为0.3。BLSTM的实验参数设置和LSTM相同,只是在每一层正向LSTM再加一层反向LSTM,所有的模型都统一用Nadam优化器。
实验结果
表2显示了各个算法在IEMOCAP即兴表演数据集上的实验结果。CNN 在IEMOCAP即兴表演数据集上并没有发挥出很好的性能,不论是在WA和UA 上,CNN都是最低的结果。在加入方向机制后,BLSTM要比LSTM展现出更加优秀的泛化能力。融入了自注意力机制和方向机制的BLSTM-DSA在WA和UA 两个结果上达到了最好的结果。
表2 各个算法在IEMOCAP即兴表演数据集上的结果
模型 | WA(%) | UA(%) |
CNN | 57.75 | 45.08 |
LSTM | 61.89 | 50.52 |
BSLTM | 62.01 | 52.48 |
BLSTM-DSA | 62.16 | 55.21 |
图2展示了各类算法在IEMOCAP即兴表演数据集的混淆矩阵。
由图2中的混淆矩阵图可知,在生气情感识别率上,BLSTM-DSA是最高的,CNN是最低的。在高兴情感识别率上,BLSTM-DSA也是最高的,而LSTM 是最低的。在中性情感识别率上,每种算法都在70%以上,并且每种算法差别不大。和中性情感识别类似的,各类算法的伤心识别率也相差不大。综上所述, BLSTM-DSA在生气识别率、中性识别率和伤心识别率上都有较为理想的结果。进一步地,由于伤心和中性两种情感的样本数量较大,并且这两种情感具有较明显的特点,所以在各类算法中,这两种情感都处于比较高的识别率。
综上所述,本发明的基于方向自注意力机制的双向长短时网络的语音情感识别系统,通过在双向长短时网络后加入自注意力机制来发现信号内部的相关性,进而控制每个时序帧的重要程度。自注意力机制能够降低对分类性能不利的时序帧的影响,并且让网络更加关注对分类性能帮助较大的时序帧,从而提高分类器在语音情感数据集上的分类精度。此外,本发明也为同领域内其他相关问题提供了参考,可以以此为依据进行拓展延伸,具有十分广阔的应用前景。
Claims (2)
1.一种基于方向自注意力机制和双向长短时网络的语音情感识别系统,其特征在于,包括如下步骤:
1)对原始的音频信号样本提取声学特征,得到提取特征后的语音训练集数据;
4)对步骤3)所得到的三维特征映射矩阵做自注意力机制操作,对Q,K,V的最后一个维度进行分割得到三个四维的特征矩阵,将这三个四维矩阵定义为其中第三维i的大小为对所得到的Q′,K′,V′做Scaled Dot-Product Attention运算,用公式定义为:
O=W*V′
2.根据权利要求1所述的基于方向自注意力机制和 双向长短时网络的语音情感识别系统,其特征在于:1)所述原始的音频信号样本来自国际语音情感数据库IEMOCAP;所述原始的音频信号样本的声学特征由opensmile工具箱提取;所述原始的音频信号样本的声学特征包括韵律学特征:过零率和能量,谱相关特征:梅尔频率倒谱系数、频谱滚降点、频谱流量、频谱中心、频谱熵、频谱扩展度、色度特征以及色度特征标准差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910555688.2A CN110400579B (zh) | 2019-06-25 | 2019-06-25 | 基于方向自注意力机制和双向长短时网络的语音情感识别 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910555688.2A CN110400579B (zh) | 2019-06-25 | 2019-06-25 | 基于方向自注意力机制和双向长短时网络的语音情感识别 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110400579A CN110400579A (zh) | 2019-11-01 |
CN110400579B true CN110400579B (zh) | 2022-01-11 |
Family
ID=68322649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910555688.2A Active CN110400579B (zh) | 2019-06-25 | 2019-06-25 | 基于方向自注意力机制和双向长短时网络的语音情感识别 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110400579B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111048082B (zh) * | 2019-12-12 | 2022-09-06 | 中国电子科技集团公司第二十八研究所 | 一种改进的端到端语音识别方法 |
WO2021127982A1 (zh) * | 2019-12-24 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 语音情感识别方法、智能装置和计算机可读存储介质 |
CN111259761B (zh) * | 2020-01-13 | 2024-06-07 | 东南大学 | 基于可迁移注意力神经网络的脑电情感识别方法及装置 |
CN111461173B (zh) * | 2020-03-06 | 2023-06-20 | 华南理工大学 | 一种基于注意力机制的多说话人聚类系统及方法 |
CN111429948B (zh) * | 2020-03-27 | 2023-04-28 | 南京工业大学 | 一种基于注意力卷积神经网络的语音情绪识别模型及方法 |
CN111508500B (zh) * | 2020-04-17 | 2023-08-29 | 五邑大学 | 一种语音情绪识别方法、系统、装置和存储介质 |
CN111524535B (zh) * | 2020-04-30 | 2022-06-21 | 杭州电子科技大学 | 基于注意力机制的特征融合用于语音情感识别的方法 |
CN111613240B (zh) * | 2020-05-22 | 2023-06-27 | 杭州电子科技大学 | 一种基于注意力机制和Bi-LSTM的伪装语音检测方法 |
CN111477221B (zh) * | 2020-05-28 | 2022-12-30 | 中国科学技术大学 | 采用双向时序卷积与自注意力机制网络的语音识别系统 |
CN111783469A (zh) * | 2020-06-29 | 2020-10-16 | 中国计量大学 | 一种提取文本句子特征的方法 |
CN111798445B (zh) * | 2020-07-17 | 2023-10-31 | 北京大学口腔医院 | 一种基于卷积神经网络的牙齿图像龋坏识别方法及系统 |
CN112447186A (zh) * | 2020-10-16 | 2021-03-05 | 华东理工大学 | 一种按类特征加权的语音情感识别算法 |
CN112581979B (zh) * | 2020-12-10 | 2022-07-12 | 重庆邮电大学 | 一种基于语谱图的语音情绪识别方法 |
CN113284515B (zh) * | 2021-04-19 | 2023-05-02 | 大连海事大学 | 一种基于物理波和循环网络的语音情感识别方法 |
CN113317791B (zh) * | 2021-05-28 | 2023-03-14 | 温州康宁医院股份有限公司 | 一种基于被测者的音频确定抑郁症严重程度的方法及装置 |
CN113257280A (zh) * | 2021-06-07 | 2021-08-13 | 苏州大学 | 基于wav2vec的语音情感识别方法 |
CN113571050A (zh) * | 2021-07-28 | 2021-10-29 | 复旦大学 | 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 |
CN113469470B (zh) * | 2021-09-02 | 2021-12-03 | 国网浙江省电力有限公司杭州供电公司 | 基于电力大脑中枢的用能数据与碳排放量关联分析方法 |
CN114495989A (zh) * | 2022-03-07 | 2022-05-13 | 浙江工业大学 | 一种基于神经网络的语音情感识别方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831450A (zh) * | 2018-03-30 | 2018-11-16 | 杭州鸟瞰智能科技股份有限公司 | 一种基于用户情绪识别的虚拟机器人人机交互方法 |
CN108597541B (zh) * | 2018-04-28 | 2020-10-02 | 南京师范大学 | 一种增强愤怒与开心识别的语音情感识别方法及系统 |
CN109285562B (zh) * | 2018-09-28 | 2022-09-23 | 东南大学 | 基于注意力机制的语音情感识别方法 |
CN109522548A (zh) * | 2018-10-26 | 2019-03-26 | 天津大学 | 一种基于双向交互神经网络的文本情感分析方法 |
CN109243494B (zh) * | 2018-10-30 | 2022-10-11 | 南京工程学院 | 基于多重注意力机制长短时记忆网络的儿童情感识别方法 |
CN109243493B (zh) * | 2018-10-30 | 2022-09-16 | 南京工程学院 | 基于改进长短时记忆网络的婴儿哭声情感识别方法 |
CN109740148B (zh) * | 2018-12-16 | 2023-12-22 | 北京工业大学 | 一种BiLSTM结合Attention机制的文本情感分析方法 |
CN109710761A (zh) * | 2018-12-21 | 2019-05-03 | 中国标准化研究院 | 基于注意力增强的双向lstm模型的情感分析方法 |
CN109817246B (zh) * | 2019-02-27 | 2023-04-18 | 平安科技(深圳)有限公司 | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 |
-
2019
- 2019-06-25 CN CN201910555688.2A patent/CN110400579B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110400579A (zh) | 2019-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
Chatziagapi et al. | Data Augmentation Using GANs for Speech Emotion Recognition. | |
Venkataramanan et al. | Emotion recognition from speech | |
Hu et al. | Temporal multimodal learning in audiovisual speech recognition | |
CN110853680B (zh) | 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法 | |
CN102800316B (zh) | 基于神经网络的声纹识别系统的最优码本设计方法 | |
CN111798874A (zh) | 一种语音情绪识别方法及系统 | |
CN110111797A (zh) | 基于高斯超矢量和深度神经网络的说话人识别方法 | |
Van Segbroeck et al. | Rapid language identification | |
Guo et al. | Deep neural network based i-vector mapping for speaker verification using short utterances | |
Elshaer et al. | Transfer learning from sound representations for anger detection in speech | |
Chen et al. | Phoneme-unit-specific time-delay neural network for speaker verification | |
Hsu et al. | Local wavelet acoustic pattern: A novel time–frequency descriptor for birdsong recognition | |
Sinha et al. | Acoustic-phonetic feature based dialect identification in Hindi Speech | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
CN111243621A (zh) | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
Palo et al. | Comparison of neural network models for speech emotion recognition | |
CN114464159A (zh) | 一种基于半流模型的声码器语音合成方法 | |
Stefanidi et al. | Application of convolutional neural networks for multimodal identification task | |
Lung | Improved wavelet feature extraction using kernel analysis for text independent speaker recognition | |
Panigrahi et al. | Emotional speech recognition using particle swarm optimization algorithm | |
Rabiee et al. | Persian accents identification using an adaptive neural network | |
Hanifa et al. | Comparative analysis on different cepstral features for speaker identification recognition | |
Xu et al. | Improve Data Utilization with Two-stage Learning in CNN-LSTM-based Voice Activity Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |