[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN112489689B - 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 - Google Patents

基于多尺度差异对抗的跨数据库语音情感识别方法及装置 Download PDF

Info

Publication number
CN112489689B
CN112489689B CN202011376020.0A CN202011376020A CN112489689B CN 112489689 B CN112489689 B CN 112489689B CN 202011376020 A CN202011376020 A CN 202011376020A CN 112489689 B CN112489689 B CN 112489689B
Authority
CN
China
Prior art keywords
database
emotion
voice
voice signal
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011376020.0A
Other languages
English (en)
Other versions
CN112489689A (zh
Inventor
郑文明
郑婉璐
宗源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202011376020.0A priority Critical patent/CN112489689B/zh
Publication of CN112489689A publication Critical patent/CN112489689A/zh
Application granted granted Critical
Publication of CN112489689B publication Critical patent/CN112489689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多尺度差异对抗的跨数据库语音情感识别方法,方法包括:(1)获取多个语音情感数据库;(2)提取每一语音信号的全局IS10特征,提取全局特征;(3)将语音信号分成前后重叠50%的五段短片段并分别提取其IS10特征;(4)输入双向长短时间记忆模型,再输入注意力机制模型,输出作为局部特征;(5)将全局IS10特征和局部特征并联,提取联合特征;(6)建立神经网络,包括对应于上述三种尺度的三个领域判别器,和情感分类器;(7)训练神经网络,网络总损失为情感分类器损失减去三个领域判别器损失;(8)获取待识别语音信号的三种尺度特征,输入训练好的神经网络,得到预测的情感类别。本发明识别结果更准确。

Description

基于多尺度差异对抗的跨数据库语音情感识别方法及装置
技术领域
本发明涉及语音情感识别技术,尤其涉及一种基于多尺度差异对抗的跨数据库语音情感识别方法及装置。
背景技术
语音情感识别是情感计算领域中的一个热门研究问题,应用前景广阔。由于不同数据库之间存在较大的特征分布差异,很大程度上影响了系统的表现。同时语音信号具有独特的序列属性,所以语音情感识别可以被看作是动态或者静态的分类问题。现有的方法大多从两个角度处理语音信号:帧尺度、整句话尺度。跨数据库语音情感识别的难点在于提取合适的语音情感特征并缩小源域数据库(训练数据库)数据以及目标域数据库(测试数据库)数据的特征分布差异。
发明内容
发明目的:本发明针对现有技术存在的问题,提供一种基于多尺度差异对抗的跨数据库语音情感识别方法,本发明采用局部,全局和联合尺度上进行领域对抗学习,减小源域数据库数据以及目标域数据库数据的特征分布差异,在此基础之上进行分类,使得识别结果更准确。
技术方案:本发明所述的基于多尺度差异对抗的跨数据库语音情感识别方法包括:
(1)获取存储有若干语音信号和对应情感类别标签的语音情感数据库,并划分为源域数据库和目标域数据库;
(2)对于源域数据库和目标域数据库中的每个语音信号,提取IS10 low-level特征,然后利用卷积神经网络做为全局特征提取器提取深度特征,作为全局特征Xg;特征提取器包括三层卷积层;
(3)对于源域数据库和目标域数据库的每个语音信号,将其按照时间顺序分成前后重叠50%的若干短片段,并提取每个短片段的IS10特征;
(4)将每个语音信号的所有短片段的IS10特征输入双向长短时间记忆模型,随后再输入进注意力机制模型,输出作为对应语音信号的局部特征;
(5)对于源域数据库和目标域数据库中的每个语音信号,将全局IS10特征和局部特征并联,输入另一个卷积神经网络做为联合特征提取器提取深度特征,作为联合特征,特征提取器包括三层卷积层;
(6)建立神经网络,所述神经网络包括对应于上述三种尺度的三个领域判别器,和情感分类器,所述领域判别器包括两层全连接层,输出为预测的语音信号所属领域类别,所述情感分类器包括两层全连接层,输出为预测的语音信号的情感类别;
(7)对所述神经网络进行训练,训练时,将源域数据库和目标域数据库中每一语音信号的局部特征,全局特征和联合特征分别混合起来作为三个样本,输入对应尺度的领域判别器,将源域数据库中每一语音信号的联合特征作为一个样本,输入情感分类器,网络总损失为情感分类器损失减去三个领域判别器损失,通过反向传播算法更新网络参数,完成网络训练;
(8)获取待识别语音信号的三种尺度特征,输入训练好的神经网络,得到预测的情感类别。
进一步的,步骤(1)中,划分源域数据库和目标域数据库的方法为:将一个语音情感数据库语音信号和对应情感类别标签作为目标域数据库,另一个语音情感数据库的语音信号和对应情感类别标签作为源域数据库。两种数据库可以是不同语言的。
进一步的,步骤(2)中所述全局特征提取器为:
Gg=Fg(Xg)
式中,Fg表示卷积神经网络,包含三层卷积层,Xg表示全局语音IS10特征,Gg表示得到的全局特征。
进一步的,步骤(4)中所述双向长短时间记忆模型为:
式中L()为双向长短时间记忆模型,Hl表示获得的隐藏层状态;是局部IS10特征。
步骤(4)中所述注意力机制模型为:
f(Hl)=WTHl
式中,f()表示线性计分函数,W表示可学习参数,Hl表示双向长短时间记忆模型的输出,αi表示注意力权重,表示Hl第i、j个元素,/>表示注意力机制模型的输出。Fl表示局部特征提取器。
进一步的,步骤(5)中所述联合特征提取器为:
式中,Fh表示卷积神经网络,包含三层卷积层,Gh表示得到的联合特征。
进一步的,步骤(7)中所述网络总损失为:
式中,式中,表示网络总损失,λ为正则化乘数,其中:
形如表示领域判别器的交叉熵损失函数,/>分别表示局部尺度、全局尺度、联合尺度上的领域判别器的交叉熵损失函数,/>表示情感分类器交叉熵损失函数,di表示源域和目标域数据库中的语音信号的领域类别标签,分别是0和1;yi表示源域数据库中语音信号的情感类别标签,/>表示源域、目标域数据库中语音信号的全局特征,/>表示源域、目标域数据库中语音信号的局部特征,/>表示源域、目标域数据库中语音信号的联合特征;Fg、Fl、Fh表示三种尺度上的特征提取器;Dg、Dl、Dh表示三种尺度上的领域判别器;
网络训练目的是最小化网络总损失函数。
本发明还公开了一种基于多尺度差异对抗的跨数据库语音情感识别装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序时实现上述方法。
有益效果:本发明与现有技术相比,其显著优点是:本发明提供了一种多尺度特征的领域对抗的语音情感识别方法,该方法结合了多种时间尺度的语音情感特征,相应地,多种尺度的领域判别器和情感分类器互相对抗学习,通过反向传播算法更新网络参数最终学习到一种既对不同情感具有区分性又对源域和目标域不具有区分性的情感特征,使得识别准确率更高。三个领域判别器可以在网络学习过程中动态地调整特征参数,使源域和目标域数据库的特征分布更接近。当领域判别器不能区分数据是来自于源域数据库还是目标域数据库时,在源域数据库上训练的分类器可以更好地分类目标域数据库。
附图说明
图1是本发明的一个实施例的流程示意图;
图2是本发明的神经网络训练过程示意图。
具体实施方式
本实施例提供了一种基于多尺度差异对抗的跨数据库语音情感识别方法,如图1和图2所示,包括:
(1)获取多个存储有若干语音信号和对应情感类别标签的语音情感数据库,分别做为源域数据库和目标域数据库。步骤(1)中,划分源域数据库和目标域数据库的方法为:将一个语音情感数据库语音信号和对应情感类别标签作为目标域数据库,另一个语音情感数据库的语音信号和对应情感类别标签作为源域数据库。两种数据库可以是不同语言的。
(2)对于源域数据库和目标域数据库中的每个语音信号,提取其IS10特征,其中,IS10特征为“Interspeech 2010paralinguistic challenge.Christian Müller,“Theinterspeech 2010 paralinguistic challenge,”Proc Interspeech,2010.”中的特征,其定义见该文献,不再赘述,该特征提取时采用openSMILE toolkit(一个公开的工具包)进行提取。采用表示提取的IS10特征,d表示IS10特征的维度1582。随后输入全局特征提取器提取深度特征,作为全局特征Xg
所述全局特征提取器为:
Gg=Fg(Xg)
式中,Fg表示卷积神经网络,包含三层卷积层,Xg表示全局语音IS10特征,Gg表示得到的全局特征。
(3)对于源域数据库和目标域数据库的每个语音信号,将其按照时间顺序分成前后重叠50%的若干短片段,并提取每个短片段的IS10特征。
若一个语音信号划分为前后重叠50%的N(N=5)个短片段,则该语音信号的IS10特征表示为:
表示第N个片段的IS10特征。
(4)将每个语音信号的所有短片段的IS10特征输入双向长短时间记忆模型,随后再输入进注意力机制模型,输出作为对应语音信号的局部特征。
其中,若双向长短时间记忆模型采用L()表示,其中隐藏节点的个数为h,具体前向和后向隐藏节点数为1582,则注意力机制模型的输出为:
f(Hl)=WTHl
式中L()为双向长短时间记忆模型,Hl表示获得的隐藏层状态;
式中,f()表示线性计分函数,W表示可学习参数,Hl表示双向长短时间记忆模型的输出,αi表示注意力权重,表示Hl第i、j个元素,/>表示注意力机制模型的输出。Fl表示局部特征提取器。
(5)对于源域数据库和目标域数据库中的每个语音信号,将全局IS10特征和局部特征并联,输入另一个卷积神经网络提取深度特征,作为联合特征;
联合特征提取器为:
式中,Fh表示卷积神经网络,包含三层卷积层,Gh表示得到的联合特征。
(6)建立神经网络,所述神经网络包括对应于上述三种尺度的三个领域判别器,和情感分类器,所述领域判别器包括两层全连接层,输出为预测的语音信号所属领域类别,所述情感分类器包括两层全连接层,输出为预测的语音信号的情感类别。
(7)对所述神经网络进行训练,训练时,将源域数据库和目标域数据库中每一语音信号的联合特征作为一个样本,输入领域判别器,将源域数据库中每一语音信号的联合特征作为一个样本,输入情感分类器,网络总损失为情感分类器损失减去领域判别器损失,通过反向传播算法更新网络参数,完成网络训练。
步骤(7)中所述网络总损失为:
式中,式中,表示网络总损失,λ为正则化乘数,其中:
形如表示领域判别器的交叉熵损失函数,/>分别表示局部尺度,全局尺度,联合尺度上的领域判别器的交叉熵损失函数,/>表示情感分类器交叉熵损失函数,di表示源域和目标域数据库中的语音信号的领域类别标签,分别是0和1;yi表示源域数据库中语音信号的情感类别标签,/>表示源域、目标域数据库中语音信号的全局特征,/>表示源域、目标域数据库中语音信号的局部特征,/>表示源域、目标域数据库中语音信号的联合特征;Fg、Fl、Fh表示三种尺度上的特征提取器;Dg、Dl、Dh表示三种尺度上的领域判别器;
网络训练目的是最小化网络总损失函数。
参数λ表示为正则化乘数,λ初始值为0,在训练结束之前逐渐增长到1。γ为10,p表示训练进程,范围为0到1。
通过学习和训练,得到既对不同情感具有区分性又对源域和目标域不具有区分性的情感特征。
(8)获取待识别语音信号的三种尺度特征,输入训练好的神经网络,得到预测的情感类别。
本发明还提供了一种基于多尺度差异对抗的跨数据库语音情感识别方法装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序时实现上述方法。
下面以IEMOCAP和MSP-improv情感数据库中的四种类别(生气、高兴、悲伤、中性)的语音情感数据为例进行验证,验证结果如表1所示:
表1
特征种类 有权重准确率(%) 无权重准确率(%)
全局尺度对抗 33.25 30.03
局部尺度对抗 33.42 33.05
联合尺度对抗 36.29 31.84
联合局部特征不经过领域判别器 28.16 25.08
多尺度差异对抗 43.43 34.59
其中“全局尺度对抗”、“局部尺度对抗”、“联合尺度对抗”分别为单独输入以上尺度的特征到对应尺度的领域判别器,“联合局部特征不经过领域判别器”为不经过领域判别过程,直接进行情感分类。“多尺度差异对抗”为三种尺度特征同时输入以上三种尺度的领域判别器。
实验结果表明,多尺度差异对抗的跨数据库语音情感识别方法取得了最高的语音情感识别准确率。在IEMOCAP做源数据库,MSP-improve做目标域数据库的四类(生气、高兴、悲伤、中性)的语音情感识别任务中,本发明提出的基于模型相对于其他方法得到了更好的识别结果。相较于其他方法,本发明成功地在多个特征尺度上同时地减小了数据库之间的特征分布差异,获得了情感相关但是领域无关的语音特征,提高了语音情感识别准确率。
以上所揭露的仅为本发明一种较佳实施例而已,不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (6)

1.一种基于多尺度差异对抗的跨数据库语音情感识别方法,其特征在于,该方法包括:
(1)获取存储有若干语音信号和对应情感类别标签的语音情感数据库,并划分为源域数据库和目标域数据库;
(2)对于源域数据库和目标域数据库中的每个语音信号,提取IS10 low-level特征,然后利用卷积神经网络做为全局特征提取器提取深度特征,作为全局特征,特征提取器包括三层卷积层;
(3)对于源域数据库和目标域数据库的每个语音信号,将其按照时间顺序分成前后重叠50%的若干短片段,并提取每个短片段的IS10特征;
(4)将每个语音信号的所有短片段的IS10特征输入双向长短时间记忆模型,随后再输入进注意力机制模型,输出作为对应语音信号的局部特征;
(5)对于源域数据库和目标域数据库中的每个语音信号,将全局特征和局部特征并联,输入另一个卷积神经网络做为联合特征提取器提取深度特征,作为联合特征,特征提取器包括三层卷积层;
(6)建立神经网络,所述神经网络包括对应于全局特征、局部特征和联合特征的三个领域判别器,和情感分类器,所述领域判别器包括两层全连接层,输出为预测的语音信号所属领域类别,所述情感分类器包括两层全连接层,输出为预测的语音信号的情感类别;
(7)对所述神经网络进行训练,训练时,将源域数据库和目标域数据库中每一语音信号的局部特征,全局特征和联合特征分别混合起来作为三个样本,输入对应尺度的领域判别器,将源域数据库中每一语音信号的联合特征作为一个样本,输入情感分类器,网络总损失为情感分类器损失减去三个领域判别器损失,通过反向传播算法更新网络参数,完成网络训练;
(8)获取待识别语音信号的三种尺度特征,输入训练好的神经网络,得到预测的情感类别;
步骤(7)中所述网络总损失为:
式中,表示网络总损失,λ为正则化乘数,其中:
形如表示领域判别器的交叉熵损失函数,/>分别表示局部尺度、全局尺度、联合尺度上的领域判别器的交叉熵损失函数,/>表示情感分类器交叉熵损失函数,di表示源域和目标域数据库中的语音信号的领域类别标签,分别是0和1;/>表示源域数据库中语音信号的情感类别标签,/>表示源域、目标域数据库中语音信号的全局特征,表示源域、目标域数据库中语音信号的局部特征,/>表示源域、目标域数据库中语音信号的联合特征;Fg、Fl、Fh表示三种尺度上的特征提取器;Dg、Dl、Dh表示三种尺度上的领域判别器;
网络训练目的是最小化网络总损失函数。
2.根据权利要求1所述的基于多尺度差异对抗的跨数据库语音情感识别方法,其特征在于:步骤(1)中,划分源域数据库和目标域数据库的方法为:将一个语音情感数据库语音信号和对应情感类别标签作为目标域数据库,另一个语音情感数据库的语音信号和对应情感类别标签作为源域数据库;两种数据库是不同语言的。
3.根据权利要求1所述的基于多尺度差异对抗的跨数据库语音情感识别方法,其特征在于:步骤(2)中所述全局特征提取器为:
Gg=Fg(Xg)
式中,Fg表示卷积神经网络,包含三层卷积层,Xg表示全局语音IS10特征,Gg表示得到的全局特征。
4.根据权利要求1所述的基于多尺度差异对抗的跨数据库语音情感识别方法,其特征在于:步骤(4)中所述双向长短时间记忆模型为:
式中L()为双向长短时间记忆模型,Hl表示获得的隐藏层状态;表示局部IS10特征;
步骤(4)中所述注意力机制模型为:
f(Hl)=WTHl
式中,f()表示线性计分函数,W表示可学习参数,Hl表示双向长短时间记忆模型的输出,αi表示注意力权重,表示Hl第i、j个元素,/>表示注意力机制模型的输出,即局部特征。
5.根据权利要求1所述的基于多尺度差异对抗的跨数据库语音情感识别方法,其特征在于:步骤(5)中所述联合特征提取器为:
式中,Fh表示卷积神经网络,包含三层卷积层,Gh表示得到的联合特征。
6.一种基于多尺度差异对抗的跨数据库语音情感识别装置,其特征在于:包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序时实现权利要求1-5中任意一项所述的方法。
CN202011376020.0A 2020-11-30 2020-11-30 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 Active CN112489689B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011376020.0A CN112489689B (zh) 2020-11-30 2020-11-30 基于多尺度差异对抗的跨数据库语音情感识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011376020.0A CN112489689B (zh) 2020-11-30 2020-11-30 基于多尺度差异对抗的跨数据库语音情感识别方法及装置

Publications (2)

Publication Number Publication Date
CN112489689A CN112489689A (zh) 2021-03-12
CN112489689B true CN112489689B (zh) 2024-04-30

Family

ID=74937525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011376020.0A Active CN112489689B (zh) 2020-11-30 2020-11-30 基于多尺度差异对抗的跨数据库语音情感识别方法及装置

Country Status (1)

Country Link
CN (1) CN112489689B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077823B (zh) * 2021-03-24 2024-05-03 河南工业大学 一种基于深度自编码器子域自适应跨库语音情感识别方法
CN114708609B (zh) * 2021-11-12 2023-08-18 中国矿业大学 一种基于持续学习的域适应骨架行为识别方法和系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN103531206A (zh) * 2013-09-30 2014-01-22 华南理工大学 一种结合局部与全局信息的语音情感特征提取方法
CN108010514A (zh) * 2017-11-20 2018-05-08 四川大学 一种基于深度神经网络的语音分类方法
CN108363973A (zh) * 2018-02-07 2018-08-03 电子科技大学 一种无约束的3d表情迁移方法
CN108717856A (zh) * 2018-06-16 2018-10-30 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN108899051A (zh) * 2018-06-26 2018-11-27 北京大学深圳研究生院 一种基于联合特征表示的语音情感识别模型及识别方法
CN110390955A (zh) * 2019-07-01 2019-10-29 东南大学 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法
CN110992988A (zh) * 2019-12-24 2020-04-10 东南大学 一种基于领域对抗的语音情感识别方法及装置
CN111048117A (zh) * 2019-12-05 2020-04-21 南京信息工程大学 一种基于目标适应子空间学习的跨库语音情感识别方法
CN111401268A (zh) * 2020-03-19 2020-07-10 内蒙古工业大学 一种面向开放环境的多模态情感识别方法及装置
WO2020196978A1 (ko) * 2019-03-25 2020-10-01 한국과학기술원 멀티스케일 음성 감정 인식을 위한 전자 장치 및 그의 동작 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8595005B2 (en) * 2010-05-31 2013-11-26 Simple Emotion, Inc. System and method for recognizing emotional state from a speech signal
US20130297297A1 (en) * 2012-05-07 2013-11-07 Erhan Guven System and method for classification of emotion in human speech

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN103531206A (zh) * 2013-09-30 2014-01-22 华南理工大学 一种结合局部与全局信息的语音情感特征提取方法
CN108010514A (zh) * 2017-11-20 2018-05-08 四川大学 一种基于深度神经网络的语音分类方法
CN108363973A (zh) * 2018-02-07 2018-08-03 电子科技大学 一种无约束的3d表情迁移方法
CN108717856A (zh) * 2018-06-16 2018-10-30 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN108899051A (zh) * 2018-06-26 2018-11-27 北京大学深圳研究生院 一种基于联合特征表示的语音情感识别模型及识别方法
WO2020196978A1 (ko) * 2019-03-25 2020-10-01 한국과학기술원 멀티스케일 음성 감정 인식을 위한 전자 장치 및 그의 동작 방법
CN110390955A (zh) * 2019-07-01 2019-10-29 东南大学 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法
CN111048117A (zh) * 2019-12-05 2020-04-21 南京信息工程大学 一种基于目标适应子空间学习的跨库语音情感识别方法
CN110992988A (zh) * 2019-12-24 2020-04-10 东南大学 一种基于领域对抗的语音情感识别方法及装置
CN111401268A (zh) * 2020-03-19 2020-07-10 内蒙古工业大学 一种面向开放环境的多模态情感识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multi-Task Learning Model Based on Multi-Scale CNN and LSTM for Sentiment Classification;ning jin 等;IEEE Access;第8卷;第77060-77072页 *
用于跨库语音情感识别的DBN特征融合方法;张昕然 等;信号处理;第33卷(第5期);第649-660页 *

Also Published As

Publication number Publication date
CN112489689A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
CN109284406B (zh) 基于差异循环神经网络的意图识别方法
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
CN105139237A (zh) 信息推送的方法和装置
CN107301171A (zh) 一种基于情感词典学习的文本情感分析方法和系统
CN104834747A (zh) 基于卷积神经网络的短文本分类方法
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN110297888B (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN113887643B (zh) 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN106294344A (zh) 视频检索方法和装置
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
CN108959305A (zh) 一种基于互联网大数据的事件抽取方法及系统
CN111460157A (zh) 用于多领域文本分类的循环卷积多任务学习方法
CN112732921A (zh) 一种虚假用户评论检测方法及系统
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN111191031A (zh) 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
Niyozmatova et al. Classification based on decision trees and neural networks
Yao [Retracted] Application of Higher Education Management in Colleges and Universities by Deep Learning
CN114969341A (zh) 一种针对餐饮行业评论的细粒度情感分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant