CN110223712B - 一种基于双向卷积循环稀疏网络的音乐情感识别方法 - Google Patents
一种基于双向卷积循环稀疏网络的音乐情感识别方法 Download PDFInfo
- Publication number
- CN110223712B CN110223712B CN201910485792.9A CN201910485792A CN110223712B CN 110223712 B CN110223712 B CN 110223712B CN 201910485792 A CN201910485792 A CN 201910485792A CN 110223712 B CN110223712 B CN 110223712B
- Authority
- CN
- China
- Prior art keywords
- time
- convolution
- bcrfms
- model
- neuron
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 30
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 21
- 125000004122 cyclic group Chemical group 0.000 title claims abstract description 15
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 20
- 230000008451 emotion Effects 0.000 claims abstract description 15
- 230000005236 sound signal Effects 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 230000002996 emotional effect Effects 0.000 claims abstract description 5
- 210000002569 neuron Anatomy 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 32
- 238000010586 diagram Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 6
- 230000014759 maintenance of location Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000002087 whitening effect Effects 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 230000007774 longterm Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 239000011541 reaction mixture Substances 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims description 2
- 239000000758 substrate Substances 0.000 claims description 2
- 230000003252 repetitive effect Effects 0.000 claims 1
- 238000012549 training Methods 0.000 abstract description 3
- 239000010410 layer Substances 0.000 description 17
- 230000006872 improvement Effects 0.000 description 5
- 230000037007 arousal Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于双向卷积循环稀疏网络的音乐情感识别方法。本发明结合卷积神经网络和循环神经网络自适应地从原始音频信号的二维时频表示(即时频图)中学习内含时序信息的情感显著性特征。进一步地,本发明提出采用加权混合二进制表示法,通过将回归预测问题转化为多个二分类问题的加权联合来降低数值型真实数据的计算复杂度。实验结果表明,双向卷积循环稀疏网络提取的内含时序信息的情感显著性特征与MediaEval 2015中的最优特征相比表现出更优的预测性能;提出的模型与目前普遍的音乐情感识别网络结构和最优方法相比训练时间减少且预测精度提高。因此,本发明方法有效解决了音乐情感识别的精度和效率的问题,而且优于现有的识别方法。
Description
技术领域
本发明属于机器学习与情感计算领域,具体涉及一种基于双向卷积循环稀疏网络的音乐情感识别方法。
背景技术
随着多媒体技术的发展,来自不同媒体的数字音乐数量的爆炸式增长使得对快速有效的音乐查询和检索方式的研究得到越来越多的关注。由于音乐可以传递情感相关的信息并且基于情感的音乐信息检索方式具有较高的普适性和用户满意度,通过识别音乐音频信号的情感来进行音乐信息检索已经成为了一个重要的研究趋势,其核心难点是如何进一步提高音乐情感识别的精度和效率。
音乐情感识别的目标是通过提取和分析音乐特征如节奏、音色和强度等,学习其感知情感状态。大量基于卷积神经网络(CNN)和循环神经网络(RNN)进行音乐情感的识别研究表现出一定的优越性。CNN可以自适应地从原始音频数据中学习高级不变特征的特性来消除特征提取过程对人类主观性或经验的依赖,RNN可以解决音乐信息的时序依赖问题。本发明采用一种基于双向卷积循环稀疏网络的音乐情感识别方法,结合了CNN自适应学习高级不变特征的特性与RNN学习特征时序关系的能力,用于激励(Arousal)和效价(Valence)情感值的预测,进而提高音乐情感识别的准确度。
发明内容
本发明的目的是提高音乐情感识别的精度和效率,提供了一种基于双向卷积循环稀疏网络的音乐情感识别方法,该方法结合了CNN和RNN来学习时频图中内含时序信息的情感显著性特征,同时采用一种加权混合二进制表示法将回归问题转为多个二分类问题,减少了模型的训练时间并提高了预测精度。
为了达到上述目的,本发明采用如下的技术方案来实现:
一种基于双向卷积循环稀疏网络的音乐情感识别方法,该方法首先将音频信号转化为时频图;其次采用卷积神经网络和循环神经网络内部融合的方式建立音频时序模型来学习内含时序信息的情感显著性特征,简称SII-ASF,同时结合加权混合二进制表示法将回归问题转化为多个二分类问题降低计算复杂度;最后进行音乐的连续情感识别。
本发明进一步的改进在于,具体包括以下步骤:
1)音频信号的时频图转化:包括音频文件的时频图转化和时频图的降维处理,具体有以下步骤,
1-1)音频文件的时频图转化:将每个时域音频文件分割为固定时长的不重叠片段,针对每个片段,设置固定帧长和步长的滑动窗口将其转化为时频图;
1-2)时频图的降维处理:采用PCA白化方法,设置99%的数据差异性保留度对时频图的频域维度进行降维;
2)建立音频时序模型学习内含时序信息的情感显著性特征:结合CNN自适应学习特征和RNN处理时序数据的能力构建双向卷积循环稀疏网络,简称BCRSN;通过CNN局部互连和权值共享的方式来改变模型输入层与隐藏层之间的连接,使用多个卷积核来获得双向卷积循环特征图组,简称BCRFMs;通过长短时记忆网络(LSTM)模块代替BCRFMs中的每个神经元来考虑BCRFMs之间的长期依赖关系,长短时记忆网络简称LSTM;
3)回归问题转化为二分类问题:包括二进制数值的表示和稀疏处理,具体有以下步骤,
3-1)二进制数值的表示:基于数值型真实数据的表示方法,加权混合二进制表示法,将回归问题转化为多个二分类问题的加权联合以降低模型的计算复杂度;
3-2)稀疏处理:使用一致性相关系数作为损失函数并向CCC中增加惩罚项作为模型的目标函数来使得BCRFMs尽可能稀疏,获取SII-ASF,其中一致性相关系数简称CCC;
4)音乐的连续情感识别:根据多个二分类的结果先对一个片段的音频内容进行情感识别,再对完整音乐文件的多个音频片段进行连续的情感识别。
本发明进一步的改进在于,所述步骤1-1)具体操作为:以时长500ms的单位将每个时域音频文件分割为不重叠的片段,对于每一个分割后的音频片段,采用60ms帧长和10ms步长的滑动窗口将其转化为时频图。
本发明进一步的改进在于,所述步骤1-2)具体操作为:以99%的数据差异性保留度进行PCA白化,将时频图频域的维度降低到45维,得到45×45大小的时频图作为BCRSN模型的输入。
本发明进一步的改进在于,所述步骤2)具体操作为:使用64个3×1且步长为2的卷积核对时频图做时域范围内的卷积操作得到BCRFMs;BCRFMs内神经元之间存在按照音频帧的时间顺序的双向循环,某一帧的神经元的输入是其对应卷积结果与前/后一帧的神经元输出的加权和;同时利用LSTM模块修改BCRFMs中的每个神经元,通过该模块的输入、输出和遗忘门限来记忆任意时长片段的某一信息,最后用3×1大小的下采样操作降低特征图尺寸,加强模型的鲁棒性。
本发明进一步的改进在于,步骤2)中BCRFMs的学习,包含以下步骤:
(i)BCRSN模型输入层与正向和反向卷积循环层之间的连接以卷积核为媒介,正向和反向卷积循环层设置与CNN卷积层相同的神经元个数及排列方式,使得模型具有自适应学习不变特征的能力,通过公式(1)计算每个神经元的卷积结果:
(ii)BCRFMs内神经元之间存在按照音频帧的时间顺序的双向循环,某一帧的神经元的输入是其对应卷积结果与前/后一帧的神经元输出的加权和;
对于正向卷积循环层的特征图,每个神经元的输入用公式(2)表示:
输出表示为公式(3):
FOnt,k=σ(FInt,k+bnt,k) (3)
对于反向卷积循环层的特征图,每个神经元的输入用公式(4)表示:
输出表示为公式(5):
BOnt,k=σ(BInt,k+bnt,k) (5)
(iii)使用LSTM模块修改BCRFMs中的每个神经元,通过该模块的输入、输出和遗忘门限来记忆任意时长片段的某一信息,在正向和反向卷积循环层与正向和反向池化层之间在频域范围内进行下采样操作,用3×1大小的下采样区域内的最大特征来依次代表该区域的特征,降低特征图大小。
本发明进一步的改进在于,所述步骤3-1)具体操作为:在BCRSN模型输出层设置L+1个神经元,得到的预测序列用O表示;其中,O1预测真实值的正负,O2~OL+1预测真实值的绝对值大小,其范围在(0,1);每个神经元作为一个二分类器,从而将损失函数计算复杂度降低为O((L+1)×12)=O(L+1),使得模型收敛更快。
本发明进一步的改进在于,步骤3-1)中采用加权混合二进制数值表示方法,包含以下步骤:
(ii)设置输出层神经元Oi对模型损失函数的贡献权值来控制其收敛方向,提高预测精度,通过下式计算:
式中δ(·)表示损失函数的计算公式,λi表示Oi对该片段损失函数的贡献。
本发明进一步的改进在于,所述步骤3-2)具体操作为:使用CCC作为损失函数并向CCC中增加BCRFMs权值的Lasso惩罚项作为模型的目标函数来使得BCRFMs尽可能稀疏,获取SII-ASF。
本发明进一步的改进在于,步骤3-2)中以CCC作为损失函数以使网络得到更有区分性的训练;具体地,将每首歌分割为固定时长的片段且每个片段的真实数据转化为混合二进制向量O*,损失函数求解包含以下步骤:
式中Ss表示和方误差(SSE),Qs表示协方差,t表示每个标记值的时间索引,Ns表示序列s长度;基于此,以混合二进制向量的位数L+1作为每个片段的序列长度并考虑每一位对模型损失函数的贡献权值,重写公式(7)得到每个片段预测序列O和真实序列O*的CCC:
式中,O*,O分别表示片段真实的和预测的混合二进制向量,λ=(λ1,λ2,...,λL+1)表示O对片段损失函数的贡献参数集合;因此,将回归预测问题的CCC求解转化为多个二分类准确率的加权和,即从而定义:
(ii)计算每首歌的平均CCC,由其每个片段的CCC和片段数计算得到:
式中,Ns表示每首歌曲的长度,即片段数;
利用Lasso回归将某些神经元的系数置为0来删除重复相关的变量和许多噪声特征,选择出情感显著性更强的SII-ASF;具体地,在损失函数的基础上添加BCRFMs权值的Lasso惩罚项作为最终的目标函数:
本发明具有如下有益的技术效果:
本发明提供的一种基于双向卷积循环稀疏网络的音乐情感识别方法,首先将音频信号转化为时频图,其次采用CNN和RNN内部融合的方式建立音频时序模型来学习SII-ASF,同时结合加权混合二进制表示法将回归问题转化为多个二分类问题降低计算复杂度,最后进行音乐的连续情感识别。与目前普遍的音乐情感识别网络结构和最优方法相比,BCRSN模型可以明显减少训练时间并提高预测精度,提取的SII-ASF特征相比于MediaEval 2015中参赛者提出的最优特征表现出更优的预测性能。
附图说明
图1为本发明中BCRSN系统流程图;
图2为本发明中从数值型真实数据到混合二进制向量的转换过程图;
图3为本发明中在DEAM和MTurk音乐情感识别数据集上,BCRSN模型与基于CNN、基于BLSTM以及基于stacked CNN-BLSTM的模型在预测性能和训练时间方面的对比图。
具体实施方式
下面结合附图对本发明做进一步详细描述。
参照图1,本发明提供的一种基于双向卷积循环稀疏网络的音乐情感识别方法,首先将音频信号转化为时频图;其次采用卷积神经网络(CNN)和循环神经网络(RNN)内部融合的方式建立音频时序模型来学习内含时序信息的情感显著性特征(简称SII-ASF),同时结合加权混合二进制表示法将回归问题转化为多个二分类问题降低计算复杂度;最后进行音乐的连续情感识别,具体包括以下步骤:
1)音频信号的时频图转化:包括音频文件的时频图转化和对时频图的降维处理,具体有以下步骤,
Step1音频文件的时频图转化:将每个时域音频文件分割为固定时长的不重叠片段,针对每个片段,设置固定帧长和步长的滑动窗口将其转化为时频图;
Step2时频图的降维处理:采用PCA白化方法,设置一定的数据差异性保留度对时频图的频域维度进行降维。
2)建立音频时序模型学习内含时序信息的情感显著性特征:结合CNN自适应学习特征和RNN处理时序数据的能力构建双向卷积循环稀疏网络(简称BCRSN)。参照图1,将输入的二维时频图通过CNN局部互连和权值共享的方式来代替每一帧ti内输入层和正向和反向卷积循环层(Forward/Backward 1c Layer)的层间连接,并且音频帧之间 设置双向循环传递时序信息来学习BCRFMs;同时使用LSTM网络模块代替BCRFMs中的每个神经元,使得BCRFMs内的特征之间具有长期依赖关系。
3)回归问题转化为二分类问题:包括加权二进制数值的表示和稀疏处理,参照图1和图2,具体有以下步骤,
Step1加权二进制数值的表示:基于表示数值型真实数据的方法,加权混合二进制表示法,将回归问题转化为多个二分类问题的加权联合以降低计算的复杂度;
Step2稀疏处理:使用CCC作为损失函数并向CCC中增加BCRFMs权值的Lasso惩罚项(L1正则化)作为模型的目标函数来使得BCRFMs尽可能稀疏,获取SII-ASF。
4)音乐的连续情感识别:将音频时频图输入BCRSN模型中,根据多个二分类的结果先对单个片段的音频内容进行情感识别,再对完整音乐文件的多个音频片段进行连续的情感识别。
参照图3,在DEAM和MTurk数据集上,本发明中的BCRSN模型与基于CNN、基于BLSTM以及基于stacked CNN-BLSTM的模型相比,Valence和Arousal维度的连续情感预测均取得最优性能。
参照表1,与MediaEval 2015的最优算法相比,本发明中的BCRSN模型可以在先验知识最少的情况下针对预测目标从原始音频信号中自适应的学习有效的特征,优于MediaEval2015中的前三个性能最优的方法(BLSTM-RNN、BLSTM-ELM和deep LSTM-RNN)。
表1:本发明中以原始音频信号为输入时,BCRSN模型与MediaEval 2015中的前三个性能最优的方法(BLSTM-RNN、BLSTM-ELM和deep LSTM-RNN)的对比。
注:N.S.-Not Significant表示该方法的性能与BCRSN模型比无显著性差异,否则表示有显著性差异。
参照表2,本发明中BCRSN模型在有Lasso惩罚项和无Lasso惩罚项时得到的SII-ASF和SII-NASF相比于MediaEval 2015中参赛者提出的特征集(JUNLP、PKUAIPL、HKPOLYU、THU-HCSIL和IRIT-SAMOVA),均表现出良好预测性能。
表2:本发明中提取的SII-ASF和SII-NASF特征与MediaEval 2015中参赛者提出的特征(JUNLP、PKUAIPL、HKPOLYU、THU-HCSIL和IRIT-SAMOVA)的性能对比。
注:N.S.-Not Significant表示该特征的性能与SII-ASF比无显著性差异,否则表示有显著性差异。
Claims (1)
1.一种基于双向卷积循环稀疏网络的音乐情感识别方法,其特征在于,该方法首先将音频信号转化为时频图;其次采用卷积神经网络和循环神经网络内部融合的方式建立音频时序模型来学习内含时序信息的情感显著性特征,简称SII-ASF,同时结合加权混合二进制表示法将回归问题转化为多个二分类问题降低计算复杂度;最后进行音乐的连续情感识别;具体包括以下步骤:
1)音频信号的时频图转化:包括音频文件的时频图转化和时频图的降维处理,具体有以下步骤,
1-1)音频文件的时频图转化:将每个时域音频文件分割为固定时长的不重叠片段,针对每个片段,设置固定帧长和步长的滑动窗口将其转化为时频图;具体操作为:以时长500ms的单位将每个时域音频文件分割为不重叠的片段,对于每一个分割后的音频片段,采用60ms帧长和10ms步长的滑动窗口将其转化为时频图;
1-2)时频图的降维处理:采用PCA白化方法,设置99%的数据差异性保留度对时频图的频域维度进行降维;具体操作为:以99%的数据差异性保留度进行PCA白化,将时频图频域的维度降低到45维,得到45×45大小的时频图作为BCRSN模型的输入;
2)建立音频时序模型学习内含时序信息的情感显著性特征:结合CNN自适应学习特征和RNN处理时序数据的能力构建双向卷积循环稀疏网络,简称BCRSN;通过CNN局部互连和权值共享的方式来改变模型输入层与隐藏层之间的连接,使用多个卷积核来获得双向卷积循环特征图组,简称BCRFMs;通过长短时记忆网络LSTM模块代替BCRFMs中的每个神经元来考虑BCRFMs之间的长期依赖关系,长短时记忆网络简称LSTM;具体操作为:使用64个3×1且步长为2的卷积核对时频图做时域范围内的卷积操作得到BCRFMs;BCRFMs内神经元之间存在按照音频帧的时间顺序的双向循环,某一帧的神经元的输入是其对应卷积结果与前/后一帧的神经元输出的加权和;同时利用LSTM模块修改BCRFMs中的每个神经元,通过该模块的输入、输出和遗忘门限来记忆任意时长片段的某一信息,最后用3×1大小的下采样操作降低特征图尺寸,加强模型的鲁棒性;
BCRFMs的学习,包含以下步骤:
(i)BCRSN模型输入层与正向和反向卷积循环层之间的连接以卷积核为媒介,正向和反向卷积循环层设置与CNN卷积层相同的神经元个数及排列方式,使得模型具有自适应学习不变特征的能力,通过公式(1)计算每个神经元的卷积结果:
(ii)BCRFMs内神经元之间存在按照音频帧的时间顺序的双向循环,某一帧的神经元的输入是其对应卷积结果与前/后一帧的神经元输出的加权和;
对于正向卷积循环层的特征图,每个神经元的输入用公式(2)表示:
输出表示为公式(3):
FOnt,k=σ(FInt,k+bnt,k) (3)
对于反向卷积循环层的特征图,每个神经元的输入用公式(4)表示:
输出表示为公式(5):
BOnt,k=σ(BInt,k+bnt,k) (5)
(iii)使用LSTM模块修改BCRFMs中的每个神经元,通过该模块的输入、输出和遗忘门限来记忆任意时长片段的某一信息,在正向和反向卷积循环层与正向和反向池化层之间在频域范围内进行下采样操作,用3×1大小的下采样区域内的最大特征来依次代表该区域的特征,降低特征图大小;
3)回归问题转化为二分类问题:包括二进制数值的表示和稀疏处理,具体有以下步骤,
3-1)二进制数值的表示:基于数值型真实数据的表示方法,加权混合二进制表示法,将回归问题转化为多个二分类问题的加权联合以降低模型的计算复杂度;具体操作为:在BCRSN模型输出层设置L+1个神经元,得到的预测序列用O表示;其中,O1预测真实值的正负,O2~OL+1预测真实值的绝对值大小,其范围在(0,1);每个神经元作为一个二分类器,从而将损失函数计算复杂度降低为O((L+1)×12)=O(L+1),使得模型收敛更快;
采用加权混合二进制数值表示方法,包含以下步骤:
(ii)设置输出层神经元Oi对模型损失函数的贡献权值来控制其收敛方向,提高预测精度,通过下式计算:
式中δ(·)表示损失函数的计算公式,λi表示Oi对损失函数的贡献;
3-2)稀疏处理:使用一致性相关系数作为损失函数并向CCC中增加惩罚项作为模型的目标函数来使得BCRFMs尽可能稀疏,获取SII-ASF,其中一致性相关系数简称CCC;具体操作为:使用CCC作为损失函数并向CCC中增加BCRFMs权值的Lasso惩罚项作为模型的目标函数来使得BCRFMs尽可能稀疏,获取SII-ASF;
以CCC作为损失函数以使网络得到更有区分性的训练;具体地,将每首歌分割为固定时长的片段且每个片段的真实数据转化为混合二进制向量O*,损失函数求解包含以下步骤:
式中Ss表示和方误差(SSE),Qs表示协方差,t表示每个标记值的时间索引,Ns表示序列s长度;基于此,以混合二进制向量的位数L+1作为每个片段的序列长度并考虑每一位对模型损失函数的贡献权值,重写公式(7)得到每个片段预测序列O和真实序列O*的CCC:
式中,O*,O分别表示片段真实的和预测的混合二进制向量,λ=(λ1,λ2,...,λL+1)表示O对片段损失函数的贡献参数集合;因此,将回归预测问题的CCC求解转化为多个二分类准确率的加权和,即从而定义:
(ii)计算每首歌的平均CCC,由其每个片段的CCC和片段数计算得到:
式中,Ns表示每首歌曲的长度,即片段数;
利用Lasso回归将某些神经元的系数置为0来删除重复相关的变量和许多噪声特征,选择出情感显著性更强的SII-ASF;具体地,在损失函数的基础上添加BCRFMs权值的Lasso惩罚项作为最终的目标函数:
4)音乐的连续情感识别:根据多个二分类的结果先对一个片段的音频内容进行情感识别,再对完整音乐文件的多个音频片段进行连续的情感识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910485792.9A CN110223712B (zh) | 2019-06-05 | 2019-06-05 | 一种基于双向卷积循环稀疏网络的音乐情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910485792.9A CN110223712B (zh) | 2019-06-05 | 2019-06-05 | 一种基于双向卷积循环稀疏网络的音乐情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110223712A CN110223712A (zh) | 2019-09-10 |
CN110223712B true CN110223712B (zh) | 2021-04-20 |
Family
ID=67819412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910485792.9A Active CN110223712B (zh) | 2019-06-05 | 2019-06-05 | 一种基于双向卷积循环稀疏网络的音乐情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110223712B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689902B (zh) * | 2019-12-11 | 2020-07-14 | 北京影谱科技股份有限公司 | 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质 |
CN111326164B (zh) * | 2020-01-21 | 2023-03-21 | 大连海事大学 | 一种半监督式音乐主旋律提取方法 |
CN113268628B (zh) * | 2021-04-14 | 2023-05-23 | 上海大学 | 一种基于模块化的加权融合神经网络的音乐情感识别方法 |
CN115294644B (zh) * | 2022-06-24 | 2024-07-02 | 北京昭衍新药研究中心股份有限公司 | 一种基于3d卷积参数重构的快速猴子行为识别方法 |
CN118298799B (zh) * | 2024-06-06 | 2024-08-13 | 清华大学 | 基于稀疏滑动窗口的低时延生成音频检测连续学习方法、装置、设备及介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105469065A (zh) * | 2015-12-07 | 2016-04-06 | 中国科学院自动化研究所 | 一种基于递归神经网络的离散情感识别方法 |
CN106128479A (zh) * | 2016-06-30 | 2016-11-16 | 福建星网视易信息系统有限公司 | 一种演唱情感识别方法及装置 |
CN106228977A (zh) * | 2016-08-02 | 2016-12-14 | 合肥工业大学 | 基于深度学习的多模态融合的歌曲情感识别方法 |
US9570091B2 (en) * | 2012-12-13 | 2017-02-14 | National Chiao Tung University | Music playing system and music playing method based on speech emotion recognition |
WO2017122798A1 (ja) * | 2016-01-14 | 2017-07-20 | 国立研究開発法人産業技術総合研究所 | 目標値推定システム、目標値推定方法及び目標値推定用プログラム |
CN107169409A (zh) * | 2017-03-31 | 2017-09-15 | 北京奇艺世纪科技有限公司 | 一种情感识别方法及装置 |
CN107506722A (zh) * | 2017-08-18 | 2017-12-22 | 中国地质大学(武汉) | 一种基于深度稀疏卷积神经网络人脸情感识别方法 |
US20180075343A1 (en) * | 2016-09-06 | 2018-03-15 | Google Inc. | Processing sequences using convolutional neural networks |
CN108717856A (zh) * | 2018-06-16 | 2018-10-30 | 台州学院 | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 |
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
CN109146066A (zh) * | 2018-11-01 | 2019-01-04 | 重庆邮电大学 | 一种基于语音情感识别的虚拟学习环境自然交互方法 |
CN109147826A (zh) * | 2018-08-22 | 2019-01-04 | 平安科技(深圳)有限公司 | 音乐情感识别方法、装置、计算机设备及计算机存储介质 |
CN109508375A (zh) * | 2018-11-19 | 2019-03-22 | 重庆邮电大学 | 一种基于多模态融合的社交情感分类方法 |
CN109599128A (zh) * | 2018-12-24 | 2019-04-09 | 北京达佳互联信息技术有限公司 | 语音情感识别方法、装置、电子设备和可读介质 |
-
2019
- 2019-06-05 CN CN201910485792.9A patent/CN110223712B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9570091B2 (en) * | 2012-12-13 | 2017-02-14 | National Chiao Tung University | Music playing system and music playing method based on speech emotion recognition |
CN105469065B (zh) * | 2015-12-07 | 2019-04-23 | 中国科学院自动化研究所 | 一种基于递归神经网络的离散情感识别方法 |
CN105469065A (zh) * | 2015-12-07 | 2016-04-06 | 中国科学院自动化研究所 | 一种基于递归神经网络的离散情感识别方法 |
WO2017122798A1 (ja) * | 2016-01-14 | 2017-07-20 | 国立研究開発法人産業技術総合研究所 | 目標値推定システム、目標値推定方法及び目標値推定用プログラム |
CN106128479A (zh) * | 2016-06-30 | 2016-11-16 | 福建星网视易信息系统有限公司 | 一种演唱情感识别方法及装置 |
CN106228977A (zh) * | 2016-08-02 | 2016-12-14 | 合肥工业大学 | 基于深度学习的多模态融合的歌曲情感识别方法 |
US20180075343A1 (en) * | 2016-09-06 | 2018-03-15 | Google Inc. | Processing sequences using convolutional neural networks |
CN107169409A (zh) * | 2017-03-31 | 2017-09-15 | 北京奇艺世纪科技有限公司 | 一种情感识别方法及装置 |
CN107506722A (zh) * | 2017-08-18 | 2017-12-22 | 中国地质大学(武汉) | 一种基于深度稀疏卷积神经网络人脸情感识别方法 |
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
CN108717856A (zh) * | 2018-06-16 | 2018-10-30 | 台州学院 | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 |
CN109147826A (zh) * | 2018-08-22 | 2019-01-04 | 平安科技(深圳)有限公司 | 音乐情感识别方法、装置、计算机设备及计算机存储介质 |
CN109146066A (zh) * | 2018-11-01 | 2019-01-04 | 重庆邮电大学 | 一种基于语音情感识别的虚拟学习环境自然交互方法 |
CN109508375A (zh) * | 2018-11-19 | 2019-03-22 | 重庆邮电大学 | 一种基于多模态融合的社交情感分类方法 |
CN109599128A (zh) * | 2018-12-24 | 2019-04-09 | 北京达佳互联信息技术有限公司 | 语音情感识别方法、装置、电子设备和可读介质 |
Non-Patent Citations (5)
Title |
---|
"LSTM for dynamic emotion and group emotion recognition in the wild";B Sun;《the 18th ACM International conference 》;20161231;全文 * |
"review of data features-based music Emotion Recognition method";yang Xinyu;《multimedia system》;20180630;第24卷(第4期);全文 * |
"stacked convolutional recurrent neural networks for music emotion recognition";M Malik;《arXiv:1706.02292v1》;20170607;全文 * |
"基于深度学习的音乐情感识别";唐霞;《电脑知识与技术》;20190430;第15卷(第11期);全文 * |
"跨库语音情感识别若干关键技术研究";张昕然;《中国博士学位论文全文数据库信息科技辑》;20171115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110223712A (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223712B (zh) | 一种基于双向卷积循环稀疏网络的音乐情感识别方法 | |
CN111667884B (zh) | 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型 | |
Choi et al. | Convolutional recurrent neural networks for music classification | |
CN110442705B (zh) | 一种基于概念指针网络的摘要自动生成方法 | |
Sirat et al. | Neural trees: a new tool for classification | |
CN109599091B (zh) | 基于STARWGAN-GP和x向量的多对多说话人转换方法 | |
CN110600047A (zh) | 基于Perceptual STARGAN的多对多说话人转换方法 | |
CN111816156A (zh) | 基于说话人风格特征建模的多对多语音转换方法及系统 | |
CN109063820A (zh) | 利用时频联合长时循环神经网络的数据处理方法 | |
CN110060657B (zh) | 基于sn的多对多说话人转换方法 | |
WO2020095321A2 (en) | Dynamic structure neural machine for solving prediction problems with uses in machine learning | |
CN111461322A (zh) | 一种深度神经网络模型压缩方法 | |
CN108876044B (zh) | 一种基于知识增强神经网络的线上内容流行度预测方法 | |
CN111276187B (zh) | 一种基于自编码器的基因表达谱特征学习方法 | |
CN112949610A (zh) | 一种基于降噪算法的改进Elman神经网络的预测方法 | |
CN110600046A (zh) | 基于改进的STARGAN和x向量的多对多说话人转换方法 | |
CN116469561A (zh) | 一种基于深度学习的乳腺癌生存预测方法 | |
CN117251705A (zh) | 一种每日天然气负荷预测方法 | |
CN116458896A (zh) | 一种基于时序特征图与注意力机制的心电图分类方法和装置 | |
CN116342961A (zh) | 基于混合量子神经网络的时间序列分类深度学习系统 | |
CN115810351A (zh) | 一种基于视听融合的管制员语音识别方法及装置 | |
CN117036862B (zh) | 基于高斯混合变分自编码器的图像生成方法 | |
CN117056609A (zh) | 一种基于多层聚合增强对比学习的会话推荐方法 | |
Jie et al. | Regularized flexible activation function combination for deep neural networks | |
CN114743569A (zh) | 一种基于双层融合深度网络的语音情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |