CN110223714B

CN110223714B - 一种基于语音的情绪识别方法

Info

Publication number: CN110223714B
Application number: CN201910478640.6A
Authority: CN
Inventors: 伍林; 尹朝阳
Original assignee: Hangzhou Zhexin Information Technology Co ltd
Current assignee: Shaoxing Shangyu Soft Candy Technology Co.,Ltd.
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2021-08-03
Anticipated expiration: 2039-06-03
Also published as: CN110223714A

Abstract

本发明公开了一种基于语音的情绪识别方法，包括对语音进行分帧处理，提取每一帧的特征向量；将每一帧的特征向量输入到深度学习时序模型中，输出帧级特征；将帧级特征与深度学习时序模型的前一时刻的隐含状态输入到注意力模型，经过学习输出段级特征；将段级特征输入到注意力模型形成最终发音级别的表征；最后输入到softmax层，得到预测情绪的概率值，从而识别情绪。本发明的有益效果为：通过使用分层式深度学习时序模型结构来提取语音中不同层次的特征，同时引入多个注意力机制来有效得选择关键特征，更有利于情绪的识别，且使用该方法不仅能提取帧级语音特征，还能提取段级语音特征，从而可有效提高情绪识别的准确性。

Description

一种基于语音的情绪识别方法

技术领域

本发明涉及情绪识别技术领域，具体而言，涉及一种基于语音的情绪识别方法。

背景技术

随着计算机与人工智能技术的发展，情绪识别在自然的人机交互中显得尤为重要。比如智能客服系统、聊天机器人等需要通过客户不同的情绪给出相应的反馈。其中人声包含了说话人的丰富信息，通过语音可以识别说话人的情绪。传统的语音情绪识别系统首先提取音频每帧的声学特征，比如短时能量、基频、MFCC(Mel频率倒谱系数,一种常用的语音频谱特征)等，然后将这些声学特征拼接起来，最后通过分类器来识别情绪。常用的分类器有SVM(支持向量机，一种有监督式分类器)、随机森林等。

近年来，深度学习方法被广泛应用到语音情绪识别领域，深度学习方法主要有：1)提取音频的梅尔频谱作为CNN(卷积神经网络,用于提取特征)的输入去进一步提取特征，通过LSTM(长短期记忆网络，适用于处理时间序列)来提取帧与帧之间的时间关联，其中引入了注意力机制以减少静音带来的影响；2)将音频转化成声谱，采用AlexNet(一种深层神经网络)里面的FCN(全卷积网络)结构去提取特征，同样引入注意力机制来提取对情绪有用的部分，减少与情绪无关的输入带来的影响；3)提取音频的32维声学特征，采用双向LSTM加注意力机制来识别情绪；4)提取音频的36维声学特征，采用一种改进的LSTM来更好的提取时间关联特征。

由于语音是时间序列，采用LSTM提取语音中的时间关联特征是一种很好的选择。在上所述的现有技术中，LSTM某一时刻的输入是音频对应帧的声学特征，学习的是帧与帧之间的关联，但是训练数据集是基于语段级标注情绪，即一条语音标记一种情绪。因此，除了学习语音中的帧级特征，还需要学习段级特征，即提取发音级别的特征来更好的识别情绪。

发明内容

为解决上述问题，本发明的目的在于提供一种利用深度学习时序模型的层次结构来识别语音情绪，该结构不仅能提取帧级语音特征，还能提取段级语音特征。

为实现上述目的，本发明提供了一种基于语音的情绪识别方法，该方法包括以下步骤：

步骤1：对语音进行分帧处理，并对每一帧提取特征，得到每一帧的特征向量，v_n表示第n帧的特征向量；

步骤2：将步骤1得到的每一帧的特征向量v_n输入到第一层深度学习时序模型中，通过第一层深度学习时序模型学习帧与帧之间的关联，并每隔k帧输出帧级特征y_i，得到M个时刻的帧级特征y_i，y_i表示第一层深度学习时序模型第i时刻输出的帧级向量；

步骤3：将步骤2得到的t时刻的帧级特征y_i与第二层深度学习时序模型的t-1时刻的隐含状态h_t-1输入到第一注意力模型，得到t时刻第二层深度学习时序模型的输入z_t，经过M个时刻的学习，输出段级特征s_t，s_t表示第二层深度学习时序模型第t时刻输出的段级向量；

步骤4：将步骤3得到的段级特征s_t输入到第二注意力模型形成最终发音级别的表征；

步骤5：将步骤4得到的发音级别的表征输入到softmax层，得到预测情绪的概率值，从而识别情绪。

作为本发明进一步的改进，所述第一层深度学习时序模型和所述第二层深度学习时序模型为LSTM、RNN和GRU中的一种。

作为本发明进一步的改进，步骤1中，每一帧的长度为25ms，帧移为10ms。

作为本发明进一步的改进，步骤1中，每一帧提取36维特征，每一帧的特征向量由13维MFCC、过零率、能量、能量熵、频谱中心、频谱延展度、频谱熵、频谱通量、频谱滚降点、12维色度向量、色度向量标准差、信噪比和音高组成。

作为本发明进一步的改进，步骤2中，k＝3，得到

个时刻的帧级特征。

作为本发明进一步的改进，步骤3中，所述第一注意力模型工作机制如公式(1)、公式(2)和公式(3)所示：

e_i ^(t)＝w^Ttanh(W_ah_t-1+U_ay_i+b_a) (1)

其中，w^T、W_a、U_a、b_a为第一注意力模型的网络参数，y_i为帧级特征，h_t-1为LSTM t-1时刻的隐含状态，z_t为t时刻LSTM的输入，e_i ^(t)为t时刻帧级特征y_i与t时刻LSTM的输入z_t的相关系数，a_i ^(t)为t时刻注意力系数。

作为本发明进一步的改进，步骤4中，所述第二注意力模型的相关系数由网络估计参数u与S_i作向量相乘得到。

作为本发明进一步的改进，使用多个所述第一层深度学习时序模型和所述第一注意力模型提取语音中不同层次的特征。

本发明的有益效果为：通过使用分层式深度学习时序模型结构来提取语音中不同层次的特征，同时引入多个注意力机制来有效得选择关键特征，更有利于情绪的识别，且使用该方法不仅能提取帧级语音特征，还能提取段级语音特征，从而可有效提高情绪识别的准确性。

附图说明

图1为本发明实施例所述的一种基于语音的情绪识别方法的流程图；

图2为本发明实施例所述的一种基于语音的情绪识别方法的情绪识别系统框架图；

图3为本发明实施例所述的一种基于语音的情绪识别方法的LSTM模型结构示意图；

图4为本发明实施例所述的一种基于语音的情绪识别方法的RNN模型结构示意图；

图5为本发明实施例所述的一种基于语音的情绪识别方法的GRU模型结构示意图。

具体实施方式

下面通过具体的实施例并结合附图对本发明做进一步的详细描述。

如图1所示，本发明实施例所述的一种基于语音的情绪识别方法，该方法包括以下步骤：

进一步的，第一层深度学习时序模型和第二层深度学习时序模型为LSTM、RNN和GRU中的一种。

进一步的，步骤1中，每一帧的长度为25ms，帧移为10ms。

进一步的，步骤1中，每一帧提取36维特征，每一帧的特征向量由13维MFCC、过零率、能量、能量熵、频谱中心、频谱延展度、频谱熵、频谱通量、频谱滚降点、12维色度向量、色度向量标准差、信噪比和音高组成。

进一步的，步骤2中，k＝3，得到

个时刻的帧级特征。

进一步的，步骤1中，步骤3中，所述第一注意力模型工作机制如公式(1)、公式(2)和公式(3)所示：

e_i ^(t)＝w^Ttanh(W_ah_t-1+U_ay_i+b_a) (1)

其中，w^T、W_a、U_a、b_a为第一注意力模型的网络参数(W、U表示权重，b表示偏置)，y_i为帧级特征，h_t-1为LSTM t-1时刻的隐含状态，z_t为t时刻LSTM的输入，e_i ^(t)为t时刻帧级特征y_i与t时刻LSTM的输入z_t的相关系数，a_i ^(t)为t时刻注意力系数。

进一步的，步骤4中，所述第二注意力模型的相关系数由网络估计参数u与S_i u作向量相乘得到。

进一步的，使用多个所述第一层深度学习时序模型和所述第一注意力模型提取语音中不同层次的特征，提高情绪识别的效果。把第一层深度学习时序模型和第一注意力模型作为一个整体模块，可以采用多级第一层深度学习时序模型和第一注意力模型构成的整体模块，实现三层或更多层深度学习时序模型提取语音中的特征。

如图2和图3所示，利用LSTM的分层结构来识别语音情绪时，首先对语音进行分帧处理，每一帧的长度为25ms，帧移为10ms；并对每帧提取36维特征，该36维特征由13维MFCC,过零率、能量、能量熵、频谱中心、频谱延展度、频谱熵、频谱通量、频谱滚降点、12维色度向量、色度向量标准差、信噪比和音高组成。然后将每一帧的36维特征向量输入到第一层LSTM结构里，如图2所示，v_n表示第n帧的特征向量，通过第一层LSTM可以学习帧与帧之间的关联。

其次，每隔k帧将第一层LSTM的输出y_i与第二层LSTM前一时刻的隐含状态h_t-1输入到注意力模型；k＝3，那么从第一层LSTM共得到

个时刻的输出{y₁,y₂,......,y_M}。第一注意力模型工作机制如下：

e_i ^(t)＝w^Ttanh(W_ah_t-1+U_ay_i+b_a) (1)

其中，w^T，W_a，U_a为权值，b_a为偏置，y_i为t时刻的帧级特征，h_t-1为LSTM t-1时刻的隐含状态，z_t为t时刻LSTM的输入，e_i ^(t)为t时刻帧级特征y_i与t时刻LSTM的输入z_t的相关系数，a_i ^(t)为t时刻注意力系数。通过注意力模型，可以有效得让第二层LSTM通过增加注意力系数来选择关键的特征。例如：注意力系数a_i ^(t)等于0时，则不选择第i个帧级特征y_i。

再次，将第二层LSTM学习的特征S_i输入到第二注意力模型去形成最终的发音级别的表征。此处第二注意力模型的相关系数e_i ^(t)由网络估计参数u与S_i作向量相乘得到。

最后将发音级别的表征输入到softmax层得到预测情绪的概率值，从而实现情绪识别。

使用分层式LSTM结构：音频经过分帧处理后，每帧为几十毫秒，提取的特征是基于音素甚至更低层次元素而来。使用分层式LSTM结构后，通过第一层LSTM学习音素特征之间的关系，音素构成音节，音节构成不同的词和短语，每隔一段时间提取第一层LSTM的输出给第二层LSTM去学习音节特征，短语特征之间的关系。比如某条语音“喂，你好！”，使用分层式LSTM结构后，既能学习“/w/”“/ei/”“/n/”等的关系，也能基于“wei”和“ni hao”来学习和辨别情绪，而现有技术只能基于“/w/”“/ei/”“/n/”等音素特征，甚至更低层次元素特征来学习。与现有技术使用单层LSTM相比，本发明使用分层式LSTM结构能提取语音中不同层级的特征，更有利于情绪的识别。

具体实施中，由于LSTM、RNN、GRU模块都是把帧序列放进模块，模块每一时刻都会有一个输出，只是三者的内部机制稍有不同，但都可以提取序列的特征，因此可以将LSTM换成RNN、GRU等相似时序模型。

RNN、GRU和LSTM的模型结构具体如下：

LSTM内部含有记忆单元，具有长短时记忆；含有三个门，分别是输入门，遗忘门，输出门，具体表示公式如下：

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

c_t＝f_t⊙c_t-1+i_t⊙tanh(W_c·[h_t-1，x_t]+b_c)

o_t＝σ(W_o·[h_t-1，x_t]+b_o)

h_t＝o_t⊙tanh(c_t)

其中，i_t，f_t，o_t分别是输入门，遗忘门，输出门；c_t是记忆单元，h_t是隐含状态，σ表示sigmoid函数，⊙表示点乘，W表示权重，b表示偏置。LSTM通过遗忘门决定保留记忆单元里多少过去时刻的信息，通过输入门接受当前时刻的信息。

RNN内部没有记忆单元，通过隐含层来学习多个时刻输入之间的关系，具体表示公式如下：

其中，x_t表示t时刻的输入，h_t表示t时刻的隐含状态，o_t表示t时刻的输出，

表示激活函数，一般选用tanh函数；U，W，V是权值，b是偏置。可以发现t时刻的隐含状态不仅与t时刻的输入有关，还与t时刻之前状态有关，从而来有效的学习时间序列之间的关联。

RNN各层参数共享，h是隐藏层，使用相同的权重参数，输入x(t-1)x(t)x(t+1)...序列，输出y(t-1)y(t)y(t+1)...序列，RNN的模型结构如图4所示。

GRU内部同样没有记忆单元，但是有更新门和重置门，更新门帮助模型决定到底要将多少过去的信息传递到未来，而重置门主要决定了到底有多少过去的信息需要遗忘。具体表示公式如下：

z_t＝σ(U_zx_t+W_zh_t-1)

r_t＝σ(U_rx_t+W_rh_t-1)

其中，x_t表示t时刻的输入，h_t表示t时刻的输出，z_t表示更新门，r_t表示重置门，

表示t时刻的中间状态；σ表示sigmoid函数，⊙表示点乘，U，W表示权重。可以发现，GRU每一时刻的输出取决于重置们和更新门。

GRU是LSTM的一种变体，简化了LSTM网络，GRU的模型结构如图5所示。

进一步扩展的，该方法还可以应用于语音年龄段识别和性别识别。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语音的情绪识别方法，其特征在于，该方法包括以下步骤：

步骤1：对语音进行分帧处理，并对每一帧提取特征，得到每一帧的特征向量，

表示第

帧的特征向量；

步骤2：将步骤1得到的每一帧的特征向量

输入到第一层深度学习时序模型中，通过第一层深度学习时序模型学习帧与帧之间的关联，并每隔

帧输出帧级特征

，得到

个时刻的帧级特征

，

表示第一层深度学习时序模型第i时刻输出的帧级向量；

步骤3：将步骤2得到的t时刻语音的M个时刻的帧级特征

与第二层深度学习时序模型的t-1时刻的隐含状态

输入到第一注意力模型，得到t时刻第二层深度学习时序模型的输入

，经过

个时刻的学习，输出段级特征

，

表示第二层深度学习时序模型第t时刻输出的段级向量；

步骤4：将步骤3得到的段级特征

输入到第二注意力模型形成最终发音级别的表征；

2.根据权利要求1所述的一种基于语音的情绪识别方法，其特征在于，所述第一层深度学习时序模型和所述第二层深度学习时序模型为LSTM、RNN和GRU中的一种。

3.根据权利要求1所述的一种基于语音的情绪识别方法，其特征在于，步骤1中，每一帧的长度为25ms，帧移为10ms。

4.根据权利要求1所述的一种基于语音的情绪识别方法，其特征在于，步骤1中，每一帧提取36维特征，每一帧的特征向量

由13维MFCC、过零率、能量、能量熵、频谱中心、频谱延展度、频谱熵、频谱通量、频谱滚降点、12维色度向量、色度向量标准差、信噪比和音高组成。

5.根据权利要求1所述的一种基于语音的情绪识别方法，其特征在于，步骤2中，

= 3，得到

个时刻的帧级特征。

6.根据权利要求1所述的一种基于语音的情绪识别方法，其特征在于，步骤3中，所述第一注意力模型工作机制如公式（1）、公式（2）和公式（3）所示：

（1）

（2）

（3）

其中，

、

、

、

为第一注意力模型的网络参数，

为帧级特征，

为LSTMt-1时刻的隐含状态，

为t时刻LSTM的输入，

为t时刻帧级特征

与t时刻LSTM的输入

的相关系数，

为t时刻注意力系数，第二层深度学习时序模型为LSTM。

7.根据权利要求1所述的一种基于语音的情绪识别方法，其特征在于，步骤4中，所述第二注意力模型的相关系数由网络估计参数

与

作向量相乘得到。

8.根据权利要求1所述的一种基于语音的情绪识别方法，其特征在于，使用多个所述第一层深度学习时序模型和多个所述第一注意力模型提取语音中不同层次的特征。