[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN110223714B - 一种基于语音的情绪识别方法 - Google Patents

一种基于语音的情绪识别方法 Download PDF

Info

Publication number
CN110223714B
CN110223714B CN201910478640.6A CN201910478640A CN110223714B CN 110223714 B CN110223714 B CN 110223714B CN 201910478640 A CN201910478640 A CN 201910478640A CN 110223714 B CN110223714 B CN 110223714B
Authority
CN
China
Prior art keywords
frame
level
deep learning
features
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910478640.6A
Other languages
English (en)
Other versions
CN110223714A (zh
Inventor
伍林
尹朝阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaoxing Shangyu Soft Candy Technology Co.,Ltd.
Original Assignee
Hangzhou Zhexin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Zhexin Information Technology Co ltd filed Critical Hangzhou Zhexin Information Technology Co ltd
Priority to CN201910478640.6A priority Critical patent/CN110223714B/zh
Publication of CN110223714A publication Critical patent/CN110223714A/zh
Application granted granted Critical
Publication of CN110223714B publication Critical patent/CN110223714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于语音的情绪识别方法,包括对语音进行分帧处理,提取每一帧的特征向量;将每一帧的特征向量输入到深度学习时序模型中,输出帧级特征;将帧级特征与深度学习时序模型的前一时刻的隐含状态输入到注意力模型,经过学习输出段级特征;将段级特征输入到注意力模型形成最终发音级别的表征;最后输入到softmax层,得到预测情绪的概率值,从而识别情绪。本发明的有益效果为:通过使用分层式深度学习时序模型结构来提取语音中不同层次的特征,同时引入多个注意力机制来有效得选择关键特征,更有利于情绪的识别,且使用该方法不仅能提取帧级语音特征,还能提取段级语音特征,从而可有效提高情绪识别的准确性。

Description

一种基于语音的情绪识别方法
技术领域
本发明涉及情绪识别技术领域,具体而言,涉及一种基于语音的情绪识别方法。
背景技术
随着计算机与人工智能技术的发展,情绪识别在自然的人机交互中显得尤为重要。比如智能客服系统、聊天机器人等需要通过客户不同的情绪给出相应的反馈。其中人声包含了说话人的丰富信息,通过语音可以识别说话人的情绪。传统的语音情绪识别系统首先提取音频每帧的声学特征,比如短时能量、基频、MFCC(Mel频率倒谱系数,一种常用的语音频谱特征)等,然后将这些声学特征拼接起来,最后通过分类器来识别情绪。常用的分类器有SVM(支持向量机,一种有监督式分类器)、随机森林等。
近年来,深度学习方法被广泛应用到语音情绪识别领域,深度学习方法主要有:1)提取音频的梅尔频谱作为CNN(卷积神经网络,用于提取特征)的输入去进一步提取特征,通过LSTM(长短期记忆网络,适用于处理时间序列)来提取帧与帧之间的时间关联,其中引入了注意力机制以减少静音带来的影响;2)将音频转化成声谱,采用AlexNet(一种深层神经网络)里面的FCN(全卷积网络)结构去提取特征,同样引入注意力机制来提取对情绪有用的部分,减少与情绪无关的输入带来的影响;3)提取音频的32维声学特征,采用双向LSTM加注意力机制来识别情绪;4)提取音频的36维声学特征,采用一种改进的LSTM来更好的提取时间关联特征。
由于语音是时间序列,采用LSTM提取语音中的时间关联特征是一种很好的选择。在上所述的现有技术中,LSTM某一时刻的输入是音频对应帧的声学特征,学习的是帧与帧之间的关联,但是训练数据集是基于语段级标注情绪,即一条语音标记一种情绪。因此,除了学习语音中的帧级特征,还需要学习段级特征,即提取发音级别的特征来更好的识别情绪。
发明内容
为解决上述问题,本发明的目的在于提供一种利用深度学习时序模型的层次结构来识别语音情绪,该结构不仅能提取帧级语音特征,还能提取段级语音特征。
为实现上述目的,本发明提供了一种基于语音的情绪识别方法,该方法包括以下步骤:
步骤1:对语音进行分帧处理,并对每一帧提取特征,得到每一帧的特征向量,vn表示第n帧的特征向量;
步骤2:将步骤1得到的每一帧的特征向量vn输入到第一层深度学习时序模型中,通过第一层深度学习时序模型学习帧与帧之间的关联,并每隔k帧输出帧级特征yi,得到M个时刻的帧级特征yi,yi表示第一层深度学习时序模型第i时刻输出的帧级向量;
步骤3:将步骤2得到的t时刻的帧级特征yi与第二层深度学习时序模型的t-1时刻的隐含状态ht-1输入到第一注意力模型,得到t时刻第二层深度学习时序模型的输入zt,经过M个时刻的学习,输出段级特征st,st表示第二层深度学习时序模型第t时刻输出的段级向量;
步骤4:将步骤3得到的段级特征st输入到第二注意力模型形成最终发音级别的表征;
步骤5:将步骤4得到的发音级别的表征输入到softmax层,得到预测情绪的概率值,从而识别情绪。
作为本发明进一步的改进,所述第一层深度学习时序模型和所述第二层深度学习时序模型为LSTM、RNN和GRU中的一种。
作为本发明进一步的改进,步骤1中,每一帧的长度为25ms,帧移为10ms。
作为本发明进一步的改进,步骤1中,每一帧提取36维特征,每一帧的特征向量由13维MFCC、过零率、能量、能量熵、频谱中心、频谱延展度、频谱熵、频谱通量、频谱滚降点、12维色度向量、色度向量标准差、信噪比和音高组成。
作为本发明进一步的改进,步骤2中,k=3,得到
Figure BDA0002083087030000021
个时刻的帧级特征。
作为本发明进一步的改进,步骤3中,所述第一注意力模型工作机制如公式(1)、公式(2)和公式(3)所示:
ei (t)=wTtanh(Waht-1+Uayi+ba) (1)
Figure BDA0002083087030000031
Figure BDA0002083087030000032
其中,wT、Wa、Ua、ba为第一注意力模型的网络参数,yi为帧级特征,ht-1为LSTM t-1时刻的隐含状态,zt为t时刻LSTM的输入,ei (t)为t时刻帧级特征yi与t时刻LSTM的输入zt的相关系数,ai (t)为t时刻注意力系数。
作为本发明进一步的改进,步骤4中,所述第二注意力模型的相关系数由网络估计参数u与Si作向量相乘得到。
作为本发明进一步的改进,使用多个所述第一层深度学习时序模型和所述第一注意力模型提取语音中不同层次的特征。
本发明的有益效果为:通过使用分层式深度学习时序模型结构来提取语音中不同层次的特征,同时引入多个注意力机制来有效得选择关键特征,更有利于情绪的识别,且使用该方法不仅能提取帧级语音特征,还能提取段级语音特征,从而可有效提高情绪识别的准确性。
附图说明
图1为本发明实施例所述的一种基于语音的情绪识别方法的流程图;
图2为本发明实施例所述的一种基于语音的情绪识别方法的情绪识别系统框架图;
图3为本发明实施例所述的一种基于语音的情绪识别方法的LSTM模型结构示意图;
图4为本发明实施例所述的一种基于语音的情绪识别方法的RNN模型结构示意图;
图5为本发明实施例所述的一种基于语音的情绪识别方法的GRU模型结构示意图。
具体实施方式
下面通过具体的实施例并结合附图对本发明做进一步的详细描述。
如图1所示,本发明实施例所述的一种基于语音的情绪识别方法,该方法包括以下步骤:
步骤1:对语音进行分帧处理,并对每一帧提取特征,得到每一帧的特征向量,vn表示第n帧的特征向量;
步骤2:将步骤1得到的每一帧的特征向量vn输入到第一层深度学习时序模型中,通过第一层深度学习时序模型学习帧与帧之间的关联,并每隔k帧输出帧级特征yi,得到M个时刻的帧级特征yi,yi表示第一层深度学习时序模型第i时刻输出的帧级向量;
步骤3:将步骤2得到的t时刻的帧级特征yi与第二层深度学习时序模型的t-1时刻的隐含状态ht-1输入到第一注意力模型,得到t时刻第二层深度学习时序模型的输入zt,经过M个时刻的学习,输出段级特征st,st表示第二层深度学习时序模型第t时刻输出的段级向量;
步骤4:将步骤3得到的段级特征st输入到第二注意力模型形成最终发音级别的表征;
步骤5:将步骤4得到的发音级别的表征输入到softmax层,得到预测情绪的概率值,从而识别情绪。
进一步的,第一层深度学习时序模型和第二层深度学习时序模型为LSTM、RNN和GRU中的一种。
进一步的,步骤1中,每一帧的长度为25ms,帧移为10ms。
进一步的,步骤1中,每一帧提取36维特征,每一帧的特征向量由13维MFCC、过零率、能量、能量熵、频谱中心、频谱延展度、频谱熵、频谱通量、频谱滚降点、12维色度向量、色度向量标准差、信噪比和音高组成。
进一步的,步骤2中,k=3,得到
Figure BDA0002083087030000041
个时刻的帧级特征。
进一步的,步骤1中,步骤3中,所述第一注意力模型工作机制如公式(1)、公式(2)和公式(3)所示:
ei (t)=wTtanh(Waht-1+Uayi+ba) (1)
Figure BDA0002083087030000043
Figure BDA0002083087030000044
其中,wT、Wa、Ua、ba为第一注意力模型的网络参数(W、U表示权重,b表示偏置),yi为帧级特征,ht-1为LSTM t-1时刻的隐含状态,zt为t时刻LSTM的输入,ei (t)为t时刻帧级特征yi与t时刻LSTM的输入zt的相关系数,ai (t)为t时刻注意力系数。
进一步的,步骤4中,所述第二注意力模型的相关系数由网络估计参数u与Si u作向量相乘得到。
进一步的,使用多个所述第一层深度学习时序模型和所述第一注意力模型提取语音中不同层次的特征,提高情绪识别的效果。把第一层深度学习时序模型和第一注意力模型作为一个整体模块,可以采用多级第一层深度学习时序模型和第一注意力模型构成的整体模块,实现三层或更多层深度学习时序模型提取语音中的特征。
如图2和图3所示,利用LSTM的分层结构来识别语音情绪时,首先对语音进行分帧处理,每一帧的长度为25ms,帧移为10ms;并对每帧提取36维特征,该36维特征由13维MFCC,过零率、能量、能量熵、频谱中心、频谱延展度、频谱熵、频谱通量、频谱滚降点、12维色度向量、色度向量标准差、信噪比和音高组成。然后将每一帧的36维特征向量输入到第一层LSTM结构里,如图2所示,vn表示第n帧的特征向量,通过第一层LSTM可以学习帧与帧之间的关联。
其次,每隔k帧将第一层LSTM的输出yi与第二层LSTM前一时刻的隐含状态ht-1输入到注意力模型;k=3,那么从第一层LSTM共得到
Figure BDA0002083087030000053
个时刻的输出{y1,y2,......,yM}。第一注意力模型工作机制如下:
ei (t)=wTtanh(Waht-1+Uayi+ba) (1)
Figure BDA0002083087030000055
Figure BDA0002083087030000056
其中,wT,Wa,Ua为权值,ba为偏置,yi为t时刻的帧级特征,ht-1为LSTM t-1时刻的隐含状态,zt为t时刻LSTM的输入,ei (t)为t时刻帧级特征yi与t时刻LSTM的输入zt的相关系数,ai (t)为t时刻注意力系数。通过注意力模型,可以有效得让第二层LSTM通过增加注意力系数来选择关键的特征。例如:注意力系数ai (t)等于0时,则不选择第i个帧级特征yi
再次,将第二层LSTM学习的特征Si输入到第二注意力模型去形成最终的发音级别的表征。此处第二注意力模型的相关系数ei (t)由网络估计参数u与Si作向量相乘得到。
最后将发音级别的表征输入到softmax层得到预测情绪的概率值,从而实现情绪识别。
使用分层式LSTM结构:音频经过分帧处理后,每帧为几十毫秒,提取的特征是基于音素甚至更低层次元素而来。使用分层式LSTM结构后,通过第一层LSTM学习音素特征之间的关系,音素构成音节,音节构成不同的词和短语,每隔一段时间提取第一层LSTM的输出给第二层LSTM去学习音节特征,短语特征之间的关系。比如某条语音“喂,你好!”,使用分层式LSTM结构后,既能学习“/w/”“/ei/”“/n/”等的关系,也能基于“wei”和“ni hao”来学习和辨别情绪,而现有技术只能基于“/w/”“/ei/”“/n/”等音素特征,甚至更低层次元素特征来学习。与现有技术使用单层LSTM相比,本发明使用分层式LSTM结构能提取语音中不同层级的特征,更有利于情绪的识别。
具体实施中,由于LSTM、RNN、GRU模块都是把帧序列放进模块,模块每一时刻都会有一个输出,只是三者的内部机制稍有不同,但都可以提取序列的特征,因此可以将LSTM换成RNN、GRU等相似时序模型。
RNN、GRU和LSTM的模型结构具体如下:
LSTM内部含有记忆单元,具有长短时记忆;含有三个门,分别是输入门,遗忘门,输出门,具体表示公式如下:
it=σ(Wi·[ht-1,xt]+bi)
ft=σ(Wf·[ht-1,xt]+bf)
ct=ft⊙ct-1+it⊙tanh(Wc·[ht-1,xt]+bc)
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot⊙tanh(ct)
其中,it,ft,ot分别是输入门,遗忘门,输出门;ct是记忆单元,ht是隐含状态,σ表示sigmoid函数,⊙表示点乘,W表示权重,b表示偏置。LSTM通过遗忘门决定保留记忆单元里多少过去时刻的信息,通过输入门接受当前时刻的信息。
RNN内部没有记忆单元,通过隐含层来学习多个时刻输入之间的关系,具体表示公式如下:
Figure BDA0002083087030000071
Figure BDA0002083087030000072
其中,xt表示t时刻的输入,ht表示t时刻的隐含状态,ot表示t时刻的输出,
Figure BDA0002083087030000073
表示激活函数,一般选用tanh函数;U,W,V是权值,b是偏置。可以发现t时刻的隐含状态不仅与t时刻的输入有关,还与t时刻之前状态有关,从而来有效的学习时间序列之间的关联。
RNN各层参数共享,h是隐藏层,使用相同的权重参数,输入x(t-1)x(t)x(t+1)...序列,输出y(t-1)y(t)y(t+1)...序列,RNN的模型结构如图4所示。
GRU内部同样没有记忆单元,但是有更新门和重置门,更新门帮助模型决定到底要将多少过去的信息传递到未来,而重置门主要决定了到底有多少过去的信息需要遗忘。具体表示公式如下:
zt=σ(Uzxt+Wzht-1)
rt=σ(Urxt+Wrht-1)
Figure BDA0002083087030000074
Figure BDA0002083087030000075
其中,xt表示t时刻的输入,ht表示t时刻的输出,zt表示更新门,rt表示重置门,
Figure BDA0002083087030000076
表示t时刻的中间状态;σ表示sigmoid函数,⊙表示点乘,U,W表示权重。可以发现,GRU每一时刻的输出取决于重置们和更新门。
GRU是LSTM的一种变体,简化了LSTM网络,GRU的模型结构如图5所示。
进一步扩展的,该方法还可以应用于语音年龄段识别和性别识别。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于语音的情绪识别方法,其特征在于,该方法包括以下步骤:
步骤1:对语音进行分帧处理,并对每一帧提取特征,得到每一帧的特征向量,
Figure DEST_PATH_IMAGE002
表示第
Figure DEST_PATH_IMAGE004
帧的特征向量;
步骤2:将步骤1得到的每一帧的特征向量
Figure 445355DEST_PATH_IMAGE002
输入到第一层深度学习时序模型中,通过第一层深度学习时序模型学习帧与帧之间的关联,并每隔
Figure DEST_PATH_IMAGE006
帧输出帧级特征
Figure DEST_PATH_IMAGE008
,得到
Figure DEST_PATH_IMAGE010
个时刻的帧级特征
Figure DEST_PATH_IMAGE012
Figure 175544DEST_PATH_IMAGE012
表示第一层深度学习时序模型第i时刻输出的帧级向量;
步骤3:将步骤2得到的t时刻语音的M个时刻的帧级特征
Figure 437505DEST_PATH_IMAGE008
与第二层深度学习时序模型的t-1时刻的隐含状态
Figure DEST_PATH_IMAGE014
输入到第一注意力模型,得到t时刻第二层深度学习时序模型的输入
Figure DEST_PATH_IMAGE016
,经过
Figure 629452DEST_PATH_IMAGE010
个时刻的学习,输出段级特征
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE020
表示第二层深度学习时序模型第t时刻输出的段级向量;
步骤4:将步骤3得到的段级特征
Figure DEST_PATH_IMAGE022
输入到第二注意力模型形成最终发音级别的表征;
步骤5:将步骤4得到的发音级别的表征输入到softmax层,得到预测情绪的概率值,从而识别情绪。
2.根据权利要求1所述的一种基于语音的情绪识别方法,其特征在于,所述第一层深度学习时序模型和所述第二层深度学习时序模型为LSTM、RNN和GRU中的一种。
3.根据权利要求1所述的一种基于语音的情绪识别方法,其特征在于,步骤1中,每一帧的长度为25ms,帧移为10ms。
4.根据权利要求1所述的一种基于语音的情绪识别方法,其特征在于,步骤1中,每一帧提取36维特征,每一帧的特征向量
Figure 725715DEST_PATH_IMAGE002
由13维MFCC、过零率、能量、能量熵、频谱中心、频谱延展度、频谱熵、频谱通量、频谱滚降点、12维色度向量、色度向量标准差、信噪比和音高组成。
5.根据权利要求1所述的一种基于语音的情绪识别方法,其特征在于,步骤2中,
Figure DEST_PATH_IMAGE024
= 3,得到
Figure DEST_PATH_IMAGE026
个时刻的帧级特征。
6.根据权利要求1所述的一种基于语音的情绪识别方法,其特征在于,步骤3中,所述第一注意力模型工作机制如公式(1)、公式(2)和公式(3)所示:
Figure DEST_PATH_IMAGE028
(1)
Figure DEST_PATH_IMAGE030
(2)
Figure DEST_PATH_IMAGE032
(3)
其中,
Figure DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE040
为第一注意力模型的网络参数,
Figure DEST_PATH_IMAGE042
为帧级特征,
Figure DEST_PATH_IMAGE044
为LSTMt-1时刻的隐含状态,
Figure 433996DEST_PATH_IMAGE016
为t时刻LSTM的输入,
Figure DEST_PATH_IMAGE046
为t时刻帧级特征
Figure 356822DEST_PATH_IMAGE042
与t时刻LSTM的输入
Figure 227826DEST_PATH_IMAGE016
的相关系数,
Figure DEST_PATH_IMAGE048
为t时刻注意力系数,第二层深度学习时序模型为LSTM。
7.根据权利要求1所述的一种基于语音的情绪识别方法,其特征在于,步骤4中,所述第二注意力模型的相关系数由网络估计参数
Figure DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE052
作向量相乘得到。
8.根据权利要求1所述的一种基于语音的情绪识别方法,其特征在于,使用多个所述第一层深度学习时序模型和多个所述第一注意力模型提取语音中不同层次的特征。
CN201910478640.6A 2019-06-03 2019-06-03 一种基于语音的情绪识别方法 Active CN110223714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910478640.6A CN110223714B (zh) 2019-06-03 2019-06-03 一种基于语音的情绪识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910478640.6A CN110223714B (zh) 2019-06-03 2019-06-03 一种基于语音的情绪识别方法

Publications (2)

Publication Number Publication Date
CN110223714A CN110223714A (zh) 2019-09-10
CN110223714B true CN110223714B (zh) 2021-08-03

Family

ID=67819528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910478640.6A Active CN110223714B (zh) 2019-06-03 2019-06-03 一种基于语音的情绪识别方法

Country Status (1)

Country Link
CN (1) CN110223714B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110556130A (zh) * 2019-09-17 2019-12-10 平安科技(深圳)有限公司 语音情绪识别方法、装置及存储介质
CN110600015B (zh) * 2019-09-18 2020-12-15 北京声智科技有限公司 一种语音的密集分类方法及相关装置
CN110956953B (zh) * 2019-11-29 2023-03-10 中山大学 基于音频分析与深度学习的争吵识别方法
CN111276131B (zh) * 2020-01-22 2021-01-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和系统
CN111312292A (zh) * 2020-02-18 2020-06-19 北京三快在线科技有限公司 基于语音的情绪识别方法、装置、电子设备及存储介质
CN111583965A (zh) * 2020-04-28 2020-08-25 北京慧闻科技(集团)有限公司 一种语音情绪识别方法、装置、设备及存储介质
CN111968677B (zh) * 2020-08-21 2021-09-07 南京工程学院 面向免验配助听器的语音质量自评估方法
CN112185423B (zh) * 2020-09-28 2023-11-21 南京工程学院 基于多头注意力机制的语音情感识别方法
CN112671984B (zh) * 2020-12-01 2022-09-23 长沙市到家悠享网络科技有限公司 服务模式切换方法、装置、机器人客服及存储介质
CN113688822A (zh) * 2021-09-07 2021-11-23 河南工业大学 一种时序注意力机制场景图像识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108010514A (zh) * 2017-11-20 2018-05-08 四川大学 一种基于深度神经网络的语音分类方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9020822B2 (en) * 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
AU2016388440A1 (en) * 2016-01-19 2018-08-02 Murdoch Childrens Research Institute Systems and computer-implemented methods for assessing social competency
US20180133900A1 (en) * 2016-11-15 2018-05-17 JIBO, Inc. Embodied dialog and embodied speech authoring tools for use with an expressive social robot
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10347244B2 (en) * 2017-04-21 2019-07-09 Go-Vivace Inc. Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
CN108334583B (zh) * 2018-01-26 2021-07-09 上海智臻智能网络科技股份有限公司 情感交互方法及装置、计算机可读存储介质、计算机设备
CN108597539B (zh) * 2018-02-09 2021-09-03 桂林电子科技大学 基于参数迁移和语谱图的语音情感识别方法
CN108717856B (zh) * 2018-06-16 2022-03-08 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN108874782B (zh) * 2018-06-29 2019-04-26 北京寻领科技有限公司 一种层次注意力lstm和知识图谱的多轮对话管理方法
CN109003625B (zh) * 2018-07-27 2021-01-12 中国科学院自动化研究所 基于三元损失的语音情感识别方法及系统
CN109285562B (zh) * 2018-09-28 2022-09-23 东南大学 基于注意力机制的语音情感识别方法
CN109243494B (zh) * 2018-10-30 2022-10-11 南京工程学院 基于多重注意力机制长短时记忆网络的儿童情感识别方法
CN109599129B (zh) * 2018-11-13 2021-09-14 杭州电子科技大学 基于注意力机制和卷积神经网络的语音抑郁症识别系统
CN109599128B (zh) * 2018-12-24 2022-03-01 北京达佳互联信息技术有限公司 语音情感识别方法、装置、电子设备和可读介质
CN109637522B (zh) * 2018-12-26 2022-12-09 杭州电子科技大学 一种基于语谱图提取深度空间注意特征的语音情感识别方法
CN109817246B (zh) * 2019-02-27 2023-04-18 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108010514A (zh) * 2017-11-20 2018-05-08 四川大学 一种基于深度神经网络的语音分类方法

Also Published As

Publication number Publication date
CN110223714A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN110223714B (zh) 一种基于语音的情绪识别方法
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
Mimura et al. Leveraging sequence-to-sequence speech synthesis for enhancing acoustic-to-word speech recognition
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
Huang et al. Audio-visual deep learning for noise robust speech recognition
US8972253B2 (en) Deep belief network for large vocabulary continuous speech recognition
Yamada et al. Improvement of distant-talking speaker identification using bottleneck features of DNN.
US11205420B1 (en) Speech processing using a recurrent neural network
Agarwalla et al. Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech
CN107615376B (zh) 声音识别装置及计算机程序记录介质
CN110956953B (zh) 基于音频分析与深度学习的争吵识别方法
CN112331183B (zh) 基于自回归网络的非平行语料语音转换方法及系统
Wang et al. Boosting classification based speech separation using temporal dynamics
Cardona et al. Online phoneme recognition using multi-layer perceptron networks combined with recurrent non-linear autoregressive neural networks with exogenous inputs
Jung et al. A unified deep learning framework for short-duration speaker verification in adverse environments
You et al. Deep neural network embeddings with gating mechanisms for text-independent speaker verification
Tokuda et al. Temporal modeling in neural network based statistical parametric speech synthesis.
Yu et al. Articulatory and spectrum information fusion based on deep recurrent neural networks
Salam et al. Malay isolated speech recognition using neural network: a work in finding number of hidden nodes and learning parameters.
Soltau et al. Reducing the computational complexity for whole word models
Bi et al. Deep feed-forward sequential memory networks for speech synthesis
Shah et al. Unsupervised Vocal Tract Length Warped Posterior Features for Non-Parallel Voice Conversion.
Masumura et al. End-to-end automatic speech recognition with deep mutual learning
Chandrakala et al. Histogram of states based assistive system for speech impairment due to neurological disorders
Lee et al. Isolated word recognition using modular recurrent neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240830

Address after: Room 204, Building 2, Gateway Living Room, E-You Town, Cao'e Street, Shangyu District, Shaoxing City, Zhejiang Province 312399, China

Patentee after: Shaoxing Shangyu Soft Candy Technology Co.,Ltd.

Country or region after: China

Address before: 310020 room 626, Guangxin business building, No. 58, Xintang Road, Jianggan District, Hangzhou, Zhejiang

Patentee before: HANGZHOU ZHEXIN INFORMATION TECHNOLOGY Co.,Ltd.

Country or region before: China