CN110223712B

CN110223712B - 一种基于双向卷积循环稀疏网络的音乐情感识别方法

Info

Publication number: CN110223712B
Application number: CN201910485792.9A
Authority: CN
Inventors: 杨新宇; 董怡卓; 罗晶; 张亦弛; 魏洁; 崔宇涵; 夏小景; 吉姝蕾
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2021-04-20
Anticipated expiration: 2039-06-05
Also published as: CN110223712A

Abstract

本发明公开了一种基于双向卷积循环稀疏网络的音乐情感识别方法。本发明结合卷积神经网络和循环神经网络自适应地从原始音频信号的二维时频表示(即时频图)中学习内含时序信息的情感显著性特征。进一步地，本发明提出采用加权混合二进制表示法，通过将回归预测问题转化为多个二分类问题的加权联合来降低数值型真实数据的计算复杂度。实验结果表明，双向卷积循环稀疏网络提取的内含时序信息的情感显著性特征与MediaEval 2015中的最优特征相比表现出更优的预测性能；提出的模型与目前普遍的音乐情感识别网络结构和最优方法相比训练时间减少且预测精度提高。因此，本发明方法有效解决了音乐情感识别的精度和效率的问题，而且优于现有的识别方法。

Description

一种基于双向卷积循环稀疏网络的音乐情感识别方法

技术领域

本发明属于机器学习与情感计算领域，具体涉及一种基于双向卷积循环稀疏网络的音乐情感识别方法。

背景技术

随着多媒体技术的发展，来自不同媒体的数字音乐数量的爆炸式增长使得对快速有效的音乐查询和检索方式的研究得到越来越多的关注。由于音乐可以传递情感相关的信息并且基于情感的音乐信息检索方式具有较高的普适性和用户满意度，通过识别音乐音频信号的情感来进行音乐信息检索已经成为了一个重要的研究趋势，其核心难点是如何进一步提高音乐情感识别的精度和效率。

音乐情感识别的目标是通过提取和分析音乐特征如节奏、音色和强度等，学习其感知情感状态。大量基于卷积神经网络(CNN)和循环神经网络(RNN)进行音乐情感的识别研究表现出一定的优越性。CNN可以自适应地从原始音频数据中学习高级不变特征的特性来消除特征提取过程对人类主观性或经验的依赖，RNN可以解决音乐信息的时序依赖问题。本发明采用一种基于双向卷积循环稀疏网络的音乐情感识别方法，结合了CNN自适应学习高级不变特征的特性与RNN学习特征时序关系的能力，用于激励(Arousal)和效价(Valence)情感值的预测，进而提高音乐情感识别的准确度。

发明内容

本发明的目的是提高音乐情感识别的精度和效率，提供了一种基于双向卷积循环稀疏网络的音乐情感识别方法，该方法结合了CNN和RNN来学习时频图中内含时序信息的情感显著性特征，同时采用一种加权混合二进制表示法将回归问题转为多个二分类问题，减少了模型的训练时间并提高了预测精度。

为了达到上述目的，本发明采用如下的技术方案来实现：

一种基于双向卷积循环稀疏网络的音乐情感识别方法，该方法首先将音频信号转化为时频图；其次采用卷积神经网络和循环神经网络内部融合的方式建立音频时序模型来学习内含时序信息的情感显著性特征，简称SII-ASF，同时结合加权混合二进制表示法将回归问题转化为多个二分类问题降低计算复杂度；最后进行音乐的连续情感识别。

本发明进一步的改进在于，具体包括以下步骤：

1)音频信号的时频图转化：包括音频文件的时频图转化和时频图的降维处理，具体有以下步骤，

1-1)音频文件的时频图转化：将每个时域音频文件分割为固定时长的不重叠片段，针对每个片段，设置固定帧长和步长的滑动窗口将其转化为时频图；

1-2)时频图的降维处理：采用PCA白化方法，设置99％的数据差异性保留度对时频图的频域维度进行降维；

2)建立音频时序模型学习内含时序信息的情感显著性特征：结合CNN自适应学习特征和RNN处理时序数据的能力构建双向卷积循环稀疏网络，简称BCRSN；通过CNN局部互连和权值共享的方式来改变模型输入层与隐藏层之间的连接，使用多个卷积核来获得双向卷积循环特征图组，简称BCRFMs；通过长短时记忆网络(LSTM)模块代替BCRFMs中的每个神经元来考虑BCRFMs之间的长期依赖关系，长短时记忆网络简称LSTM；

3)回归问题转化为二分类问题：包括二进制数值的表示和稀疏处理，具体有以下步骤，

3-1)二进制数值的表示：基于数值型真实数据的表示方法，加权混合二进制表示法，将回归问题转化为多个二分类问题的加权联合以降低模型的计算复杂度；

3-2)稀疏处理：使用一致性相关系数作为损失函数并向CCC中增加惩罚项作为模型的目标函数来使得BCRFMs尽可能稀疏，获取SII-ASF，其中一致性相关系数简称CCC；

4)音乐的连续情感识别：根据多个二分类的结果先对一个片段的音频内容进行情感识别，再对完整音乐文件的多个音频片段进行连续的情感识别。

本发明进一步的改进在于，所述步骤1-1)具体操作为：以时长500ms的单位将每个时域音频文件分割为不重叠的片段，对于每一个分割后的音频片段，采用60ms帧长和10ms步长的滑动窗口将其转化为时频图。

本发明进一步的改进在于，所述步骤1-2)具体操作为：以99％的数据差异性保留度进行PCA白化，将时频图频域的维度降低到45维，得到45×45大小的时频图作为BCRSN模型的输入。

本发明进一步的改进在于，所述步骤2)具体操作为：使用64个3×1且步长为2的卷积核对时频图做时域范围内的卷积操作得到BCRFMs；BCRFMs内神经元之间存在按照音频帧的时间顺序的双向循环，某一帧的神经元的输入是其对应卷积结果与前/后一帧的神经元输出的加权和；同时利用LSTM模块修改BCRFMs中的每个神经元，通过该模块的输入、输出和遗忘门限来记忆任意时长片段的某一信息，最后用3×1大小的下采样操作降低特征图尺寸，加强模型的鲁棒性。

本发明进一步的改进在于，步骤2)中BCRFMs的学习，包含以下步骤：

(i)BCRSN模型输入层与正向和反向卷积循环层之间的连接以卷积核为媒介，正向和反向卷积循环层设置与CNN卷积层相同的神经元个数及排列方式，使得模型具有自适应学习不变特征的能力，通过公式(1)计算每个神经元的卷积结果：

式中,C_nt,k为第k个特征图位置(n,t)处神经元的卷积结果，n＝1,2,...,(N-1)/2，t＝1,2...,T；

为输入层对应位置(n,t)处的二维特征矩阵，W_k为第k个卷积核的权值参数；

(ii)BCRFMs内神经元之间存在按照音频帧的时间顺序的双向循环，某一帧的神经元的输入是其对应卷积结果与前/后一帧的神经元输出的加权和；

对于正向卷积循环层的特征图，每个神经元的输入用公式(2)表示：

输出表示为公式(3)：

FO_nt,k＝σ(FI_nt,k+b_nt,k) (3)

对于反向卷积循环层的特征图，每个神经元的输入用公式(4)表示：

输出表示为公式(5)：

BO_nt,k＝σ(BI_nt,k+b_nt,k) (5)

式中

表示第k个特征图前一帧t-1/t+1的所有神经元的输出结果；

分别表示前向传播和后向传播过程中神经元的连接矩阵，各个音频帧之间共享权值；b_nt,k为网络偏置；

(iii)使用LSTM模块修改BCRFMs中的每个神经元，通过该模块的输入、输出和遗忘门限来记忆任意时长片段的某一信息，在正向和反向卷积循环层与正向和反向池化层之间在频域范围内进行下采样操作，用3×1大小的下采样区域内的最大特征来依次代表该区域的特征，降低特征图大小。

本发明进一步的改进在于，所述步骤3-1)具体操作为：在BCRSN模型输出层设置L+1个神经元，得到的预测序列用O表示；其中，O₁预测真实值的正负，O₂～O_L+1预测真实值的绝对值大小，其范围在(0,1)；每个神经元作为一个二分类器，从而将损失函数计算复杂度降低为O((L+1)×1²)＝O(L+1)，使得模型收敛更快。

本发明进一步的改进在于，步骤3-1)中采用加权混合二进制数值表示方法，包含以下步骤：

(i)新的加权混合二进制表示法将数值型真实数据g转换为混合二进制向量O^*来降低计算复杂度，该向量的每一位

用公式(6)计算得到：

式中g₁＝g；

由g₁值的正负决定，当g₁≥0时，

g₁＜0时，

(ii)设置输出层神经元O_i对模型损失函数的贡献权值来控制其收敛方向，提高预测精度，通过下式计算：

式中δ(·)表示损失函数的计算公式，λ_i表示O_i对该片段损失函数的贡献。

本发明进一步的改进在于，所述步骤3-2)具体操作为：使用CCC作为损失函数并向CCC中增加BCRFMs权值的Lasso惩罚项作为模型的目标函数来使得BCRFMs尽可能稀疏，获取SII-ASF。

本发明进一步的改进在于，步骤3-2)中以CCC作为损失函数以使网络得到更有区分性的训练；具体地，将每首歌分割为固定时长的片段且每个片段的真实数据转化为混合二进制向量O^*，损失函数求解包含以下步骤：

(i)计算每个片段预测序列O和真实序列O^*的CCC，序列样本s的预测序列f_s和目标序列

之间的CCC定义为：

式中S_s表示和方误差(SSE)，

Q_s表示协方差，

t表示每个标记值的时间索引，N_s表示序列s长度；基于此，以混合二进制向量的位数L+1作为每个片段的序列长度并考虑每一位对模型损失函数的贡献权值，重写公式(7)得到每个片段预测序列O和真实序列O^*的CCC：

式中，O^*,O分别表示片段真实的和预测的混合二进制向量，λ＝(λ₁,λ₂,...,λ_L+1)表示O对片段损失函数的贡献参数集合；因此，将回归预测问题的CCC求解转化为多个二分类准确率的加权和，即

从而定义：

(ii)计算每首歌的平均CCC，由其每个片段的CCC和片段数计算得到：

式中，N_s表示每首歌曲的长度，即片段数；

利用Lasso回归将某些神经元的系数置为0来删除重复相关的变量和许多噪声特征，选择出情感显著性更强的SII-ASF；具体地，在损失函数

的基础上添加BCRFMs权值的Lasso惩罚项作为最终的目标函数：

式中，β_F表示BCRFMs的参数集合，

类似的，

α_F和α_B是用来控制特征图稀疏度的超参数，α值越大，稀疏度越高；最小化L以删除噪声特征，选择出情感显著性特征，同时提高预测准确度。

本发明具有如下有益的技术效果：

本发明提供的一种基于双向卷积循环稀疏网络的音乐情感识别方法，首先将音频信号转化为时频图，其次采用CNN和RNN内部融合的方式建立音频时序模型来学习SII-ASF，同时结合加权混合二进制表示法将回归问题转化为多个二分类问题降低计算复杂度，最后进行音乐的连续情感识别。与目前普遍的音乐情感识别网络结构和最优方法相比，BCRSN模型可以明显减少训练时间并提高预测精度，提取的SII-ASF特征相比于MediaEval 2015中参赛者提出的最优特征表现出更优的预测性能。

附图说明

图1为本发明中BCRSN系统流程图；

图2为本发明中从数值型真实数据到混合二进制向量的转换过程图；

图3为本发明中在DEAM和MTurk音乐情感识别数据集上，BCRSN模型与基于CNN、基于BLSTM以及基于stacked CNN-BLSTM的模型在预测性能和训练时间方面的对比图。

具体实施方式

下面结合附图对本发明做进一步详细描述。

参照图1，本发明提供的一种基于双向卷积循环稀疏网络的音乐情感识别方法，首先将音频信号转化为时频图；其次采用卷积神经网络(CNN)和循环神经网络(RNN)内部融合的方式建立音频时序模型来学习内含时序信息的情感显著性特征(简称SII-ASF)，同时结合加权混合二进制表示法将回归问题转化为多个二分类问题降低计算复杂度；最后进行音乐的连续情感识别，具体包括以下步骤：

1)音频信号的时频图转化：包括音频文件的时频图转化和对时频图的降维处理，具体有以下步骤，

Step1音频文件的时频图转化：将每个时域音频文件分割为固定时长的不重叠片段，针对每个片段，设置固定帧长和步长的滑动窗口将其转化为时频图；

Step2时频图的降维处理：采用PCA白化方法，设置一定的数据差异性保留度对时频图的频域维度进行降维。

2)建立音频时序模型学习内含时序信息的情感显著性特征：结合CNN自适应学习特征和RNN处理时序数据的能力构建双向卷积循环稀疏网络(简称BCRSN)。参照图1，将输入的二维时频图通过CNN局部互连和权值共享的方式来代替每一帧t_i内输入层和正向和反向卷积循环层(Forward/Backward 1c Layer)的层间连接，并且音频帧之间

设置双向循环传递时序信息来学习BCRFMs；同时使用LSTM网络模块代替BCRFMs中的每个神经元，使得BCRFMs内的特征之间具有长期依赖关系。

3)回归问题转化为二分类问题：包括加权二进制数值的表示和稀疏处理，参照图1和图2，具体有以下步骤，

Step1加权二进制数值的表示：基于表示数值型真实数据的方法，加权混合二进制表示法，将回归问题转化为多个二分类问题的加权联合以降低计算的复杂度；

Step2稀疏处理：使用CCC作为损失函数并向CCC中增加BCRFMs权值的Lasso惩罚项(L1正则化)作为模型的目标函数来使得BCRFMs尽可能稀疏，获取SII-ASF。

4)音乐的连续情感识别：将音频时频图输入BCRSN模型中，根据多个二分类的结果先对单个片段的音频内容进行情感识别，再对完整音乐文件的多个音频片段进行连续的情感识别。

参照图3，在DEAM和MTurk数据集上，本发明中的BCRSN模型与基于CNN、基于BLSTM以及基于stacked CNN-BLSTM的模型相比，Valence和Arousal维度的连续情感预测均取得最优性能。

参照表1，与MediaEval 2015的最优算法相比，本发明中的BCRSN模型可以在先验知识最少的情况下针对预测目标从原始音频信号中自适应的学习有效的特征，优于MediaEval2015中的前三个性能最优的方法(BLSTM-RNN、BLSTM-ELM和deep LSTM-RNN)。

表1：本发明中以原始音频信号为输入时，BCRSN模型与MediaEval 2015中的前三个性能最优的方法(BLSTM-RNN、BLSTM-ELM和deep LSTM-RNN)的对比。

注：N.S.-Not Significant表示该方法的性能与BCRSN模型比无显著性差异，否则表示有显著性差异。

参照表2，本发明中BCRSN模型在有Lasso惩罚项和无Lasso惩罚项时得到的SII-ASF和SII-NASF相比于MediaEval 2015中参赛者提出的特征集(JUNLP、PKUAIPL、HKPOLYU、THU-HCSIL和IRIT-SAMOVA)，均表现出良好预测性能。

表2：本发明中提取的SII-ASF和SII-NASF特征与MediaEval 2015中参赛者提出的特征(JUNLP、PKUAIPL、HKPOLYU、THU-HCSIL和IRIT-SAMOVA)的性能对比。

注：N.S.-Not Significant表示该特征的性能与SII-ASF比无显著性差异，否则表示有显著性差异。

Claims

1.一种基于双向卷积循环稀疏网络的音乐情感识别方法，其特征在于，该方法首先将音频信号转化为时频图；其次采用卷积神经网络和循环神经网络内部融合的方式建立音频时序模型来学习内含时序信息的情感显著性特征，简称SII-ASF，同时结合加权混合二进制表示法将回归问题转化为多个二分类问题降低计算复杂度；最后进行音乐的连续情感识别；具体包括以下步骤：

1-1)音频文件的时频图转化：将每个时域音频文件分割为固定时长的不重叠片段，针对每个片段，设置固定帧长和步长的滑动窗口将其转化为时频图；具体操作为：以时长500ms的单位将每个时域音频文件分割为不重叠的片段，对于每一个分割后的音频片段，采用60ms帧长和10ms步长的滑动窗口将其转化为时频图；

1-2)时频图的降维处理：采用PCA白化方法，设置99％的数据差异性保留度对时频图的频域维度进行降维；具体操作为：以99％的数据差异性保留度进行PCA白化，将时频图频域的维度降低到45维，得到45×45大小的时频图作为BCRSN模型的输入；

2)建立音频时序模型学习内含时序信息的情感显著性特征：结合CNN自适应学习特征和RNN处理时序数据的能力构建双向卷积循环稀疏网络，简称BCRSN；通过CNN局部互连和权值共享的方式来改变模型输入层与隐藏层之间的连接，使用多个卷积核来获得双向卷积循环特征图组，简称BCRFMs；通过长短时记忆网络LSTM模块代替BCRFMs中的每个神经元来考虑BCRFMs之间的长期依赖关系，长短时记忆网络简称LSTM；具体操作为：使用64个3×1且步长为2的卷积核对时频图做时域范围内的卷积操作得到BCRFMs；BCRFMs内神经元之间存在按照音频帧的时间顺序的双向循环，某一帧的神经元的输入是其对应卷积结果与前/后一帧的神经元输出的加权和；同时利用LSTM模块修改BCRFMs中的每个神经元，通过该模块的输入、输出和遗忘门限来记忆任意时长片段的某一信息，最后用3×1大小的下采样操作降低特征图尺寸，加强模型的鲁棒性；

BCRFMs的学习，包含以下步骤：

输出表示为公式(3)：

FO_nt,k＝σ(FI_nt,k+b_nt,k) (3)

输出表示为公式(5)：

BO_nt,k＝σ(BI_nt,k+b_nt,k) (5)

式中

表示第k个特征图前一帧t-1/t+1的所有神经元的输出结果；

(iii)使用LSTM模块修改BCRFMs中的每个神经元，通过该模块的输入、输出和遗忘门限来记忆任意时长片段的某一信息，在正向和反向卷积循环层与正向和反向池化层之间在频域范围内进行下采样操作，用3×1大小的下采样区域内的最大特征来依次代表该区域的特征，降低特征图大小；

3-1)二进制数值的表示：基于数值型真实数据的表示方法，加权混合二进制表示法，将回归问题转化为多个二分类问题的加权联合以降低模型的计算复杂度；具体操作为：在BCRSN模型输出层设置L+1个神经元，得到的预测序列用O表示；其中，O₁预测真实值的正负，O₂～O_L+1预测真实值的绝对值大小，其范围在(0,1)；每个神经元作为一个二分类器，从而将损失函数计算复杂度降低为O((L+1)×1²)＝O(L+1)，使得模型收敛更快；

采用加权混合二进制数值表示方法，包含以下步骤：

用公式(6)计算得到：

式中g₁＝g；

由g₁值的正负决定，当g₁≥0时，

g₁＜0时，

式中δ(·)表示损失函数的计算公式，λ_i表示O_i对损失函数的贡献；

3-2)稀疏处理：使用一致性相关系数作为损失函数并向CCC中增加惩罚项作为模型的目标函数来使得BCRFMs尽可能稀疏，获取SII-ASF，其中一致性相关系数简称CCC；具体操作为：使用CCC作为损失函数并向CCC中增加BCRFMs权值的Lasso惩罚项作为模型的目标函数来使得BCRFMs尽可能稀疏，获取SII-ASF；

以CCC作为损失函数以使网络得到更有区分性的训练；具体地，将每首歌分割为固定时长的片段且每个片段的真实数据转化为混合二进制向量O^*，损失函数求解包含以下步骤：