[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN110223712B - 一种基于双向卷积循环稀疏网络的音乐情感识别方法 - Google Patents

一种基于双向卷积循环稀疏网络的音乐情感识别方法 Download PDF

Info

Publication number
CN110223712B
CN110223712B CN201910485792.9A CN201910485792A CN110223712B CN 110223712 B CN110223712 B CN 110223712B CN 201910485792 A CN201910485792 A CN 201910485792A CN 110223712 B CN110223712 B CN 110223712B
Authority
CN
China
Prior art keywords
time
convolution
bcrfms
model
neuron
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910485792.9A
Other languages
English (en)
Other versions
CN110223712A (zh
Inventor
杨新宇
董怡卓
罗晶
张亦弛
魏洁
崔宇涵
夏小景
吉姝蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910485792.9A priority Critical patent/CN110223712B/zh
Publication of CN110223712A publication Critical patent/CN110223712A/zh
Application granted granted Critical
Publication of CN110223712B publication Critical patent/CN110223712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于双向卷积循环稀疏网络的音乐情感识别方法。本发明结合卷积神经网络和循环神经网络自适应地从原始音频信号的二维时频表示(即时频图)中学习内含时序信息的情感显著性特征。进一步地,本发明提出采用加权混合二进制表示法,通过将回归预测问题转化为多个二分类问题的加权联合来降低数值型真实数据的计算复杂度。实验结果表明,双向卷积循环稀疏网络提取的内含时序信息的情感显著性特征与MediaEval 2015中的最优特征相比表现出更优的预测性能;提出的模型与目前普遍的音乐情感识别网络结构和最优方法相比训练时间减少且预测精度提高。因此,本发明方法有效解决了音乐情感识别的精度和效率的问题,而且优于现有的识别方法。

Description

一种基于双向卷积循环稀疏网络的音乐情感识别方法
技术领域
本发明属于机器学习与情感计算领域,具体涉及一种基于双向卷积循环稀疏网络的音乐情感识别方法。
背景技术
随着多媒体技术的发展,来自不同媒体的数字音乐数量的爆炸式增长使得对快速有效的音乐查询和检索方式的研究得到越来越多的关注。由于音乐可以传递情感相关的信息并且基于情感的音乐信息检索方式具有较高的普适性和用户满意度,通过识别音乐音频信号的情感来进行音乐信息检索已经成为了一个重要的研究趋势,其核心难点是如何进一步提高音乐情感识别的精度和效率。
音乐情感识别的目标是通过提取和分析音乐特征如节奏、音色和强度等,学习其感知情感状态。大量基于卷积神经网络(CNN)和循环神经网络(RNN)进行音乐情感的识别研究表现出一定的优越性。CNN可以自适应地从原始音频数据中学习高级不变特征的特性来消除特征提取过程对人类主观性或经验的依赖,RNN可以解决音乐信息的时序依赖问题。本发明采用一种基于双向卷积循环稀疏网络的音乐情感识别方法,结合了CNN自适应学习高级不变特征的特性与RNN学习特征时序关系的能力,用于激励(Arousal)和效价(Valence)情感值的预测,进而提高音乐情感识别的准确度。
发明内容
本发明的目的是提高音乐情感识别的精度和效率,提供了一种基于双向卷积循环稀疏网络的音乐情感识别方法,该方法结合了CNN和RNN来学习时频图中内含时序信息的情感显著性特征,同时采用一种加权混合二进制表示法将回归问题转为多个二分类问题,减少了模型的训练时间并提高了预测精度。
为了达到上述目的,本发明采用如下的技术方案来实现:
一种基于双向卷积循环稀疏网络的音乐情感识别方法,该方法首先将音频信号转化为时频图;其次采用卷积神经网络和循环神经网络内部融合的方式建立音频时序模型来学习内含时序信息的情感显著性特征,简称SII-ASF,同时结合加权混合二进制表示法将回归问题转化为多个二分类问题降低计算复杂度;最后进行音乐的连续情感识别。
本发明进一步的改进在于,具体包括以下步骤:
1)音频信号的时频图转化:包括音频文件的时频图转化和时频图的降维处理,具体有以下步骤,
1-1)音频文件的时频图转化:将每个时域音频文件分割为固定时长的不重叠片段,针对每个片段,设置固定帧长和步长的滑动窗口将其转化为时频图;
1-2)时频图的降维处理:采用PCA白化方法,设置99%的数据差异性保留度对时频图的频域维度进行降维;
2)建立音频时序模型学习内含时序信息的情感显著性特征:结合CNN自适应学习特征和RNN处理时序数据的能力构建双向卷积循环稀疏网络,简称BCRSN;通过CNN局部互连和权值共享的方式来改变模型输入层与隐藏层之间的连接,使用多个卷积核来获得双向卷积循环特征图组,简称BCRFMs;通过长短时记忆网络(LSTM)模块代替BCRFMs中的每个神经元来考虑BCRFMs之间的长期依赖关系,长短时记忆网络简称LSTM;
3)回归问题转化为二分类问题:包括二进制数值的表示和稀疏处理,具体有以下步骤,
3-1)二进制数值的表示:基于数值型真实数据的表示方法,加权混合二进制表示法,将回归问题转化为多个二分类问题的加权联合以降低模型的计算复杂度;
3-2)稀疏处理:使用一致性相关系数作为损失函数并向CCC中增加惩罚项作为模型的目标函数来使得BCRFMs尽可能稀疏,获取SII-ASF,其中一致性相关系数简称CCC;
4)音乐的连续情感识别:根据多个二分类的结果先对一个片段的音频内容进行情感识别,再对完整音乐文件的多个音频片段进行连续的情感识别。
本发明进一步的改进在于,所述步骤1-1)具体操作为:以时长500ms的单位将每个时域音频文件分割为不重叠的片段,对于每一个分割后的音频片段,采用60ms帧长和10ms步长的滑动窗口将其转化为时频图。
本发明进一步的改进在于,所述步骤1-2)具体操作为:以99%的数据差异性保留度进行PCA白化,将时频图频域的维度降低到45维,得到45×45大小的时频图作为BCRSN模型的输入。
本发明进一步的改进在于,所述步骤2)具体操作为:使用64个3×1且步长为2的卷积核对时频图做时域范围内的卷积操作得到BCRFMs;BCRFMs内神经元之间存在按照音频帧的时间顺序的双向循环,某一帧的神经元的输入是其对应卷积结果与前/后一帧的神经元输出的加权和;同时利用LSTM模块修改BCRFMs中的每个神经元,通过该模块的输入、输出和遗忘门限来记忆任意时长片段的某一信息,最后用3×1大小的下采样操作降低特征图尺寸,加强模型的鲁棒性。
本发明进一步的改进在于,步骤2)中BCRFMs的学习,包含以下步骤:
(i)BCRSN模型输入层与正向和反向卷积循环层之间的连接以卷积核为媒介,正向和反向卷积循环层设置与CNN卷积层相同的神经元个数及排列方式,使得模型具有自适应学习不变特征的能力,通过公式(1)计算每个神经元的卷积结果:
Figure BDA0002085343230000031
式中,Cnt,k为第k个特征图位置(n,t)处神经元的卷积结果,n=1,2,...,(N-1)/2,t=1,2...,T;
Figure BDA0002085343230000032
为输入层对应位置(n,t)处的二维特征矩阵,Wk为第k个卷积核的权值参数;
(ii)BCRFMs内神经元之间存在按照音频帧的时间顺序的双向循环,某一帧的神经元的输入是其对应卷积结果与前/后一帧的神经元输出的加权和;
对于正向卷积循环层的特征图,每个神经元的输入用公式(2)表示:
Figure BDA0002085343230000041
输出表示为公式(3):
FOnt,k=σ(FInt,k+bnt,k) (3)
对于反向卷积循环层的特征图,每个神经元的输入用公式(4)表示:
Figure BDA0002085343230000042
输出表示为公式(5):
BOnt,k=σ(BInt,k+bnt,k) (5)
式中
Figure BDA0002085343230000043
表示第k个特征图前一帧t-1/t+1的所有神经元的输出结果;
Figure BDA0002085343230000044
Figure BDA0002085343230000045
分别表示前向传播和后向传播过程中神经元的连接矩阵,各个音频帧之间共享权值;bnt,k为网络偏置;
(iii)使用LSTM模块修改BCRFMs中的每个神经元,通过该模块的输入、输出和遗忘门限来记忆任意时长片段的某一信息,在正向和反向卷积循环层与正向和反向池化层之间在频域范围内进行下采样操作,用3×1大小的下采样区域内的最大特征来依次代表该区域的特征,降低特征图大小。
本发明进一步的改进在于,所述步骤3-1)具体操作为:在BCRSN模型输出层设置L+1个神经元,得到的预测序列用O表示;其中,O1预测真实值的正负,O2~OL+1预测真实值的绝对值大小,其范围在(0,1);每个神经元作为一个二分类器,从而将损失函数计算复杂度降低为O((L+1)×12)=O(L+1),使得模型收敛更快。
本发明进一步的改进在于,步骤3-1)中采用加权混合二进制数值表示方法,包含以下步骤:
(i)新的加权混合二进制表示法将数值型真实数据g转换为混合二进制向量O*来降低计算复杂度,该向量的每一位
Figure BDA0002085343230000051
用公式(6)计算得到:
Figure BDA0002085343230000052
式中g1=g;
Figure BDA0002085343230000053
由g1值的正负决定,当g1≥0时,
Figure BDA0002085343230000054
g1<0时,
Figure BDA0002085343230000055
(ii)设置输出层神经元Oi对模型损失函数的贡献权值来控制其收敛方向,提高预测精度,通过下式计算:
Figure BDA0002085343230000056
式中δ(·)表示损失函数的计算公式,λi表示Oi对该片段损失函数的贡献。
本发明进一步的改进在于,所述步骤3-2)具体操作为:使用CCC作为损失函数并向CCC中增加BCRFMs权值的Lasso惩罚项作为模型的目标函数来使得BCRFMs尽可能稀疏,获取SII-ASF。
本发明进一步的改进在于,步骤3-2)中以CCC作为损失函数以使网络得到更有区分性的训练;具体地,将每首歌分割为固定时长的片段且每个片段的真实数据转化为混合二进制向量O*,损失函数求解包含以下步骤:
(i)计算每个片段预测序列O和真实序列O*的CCC,序列样本s的预测序列fs和目标序列
Figure BDA0002085343230000057
之间的CCC定义为:
Figure BDA0002085343230000058
式中Ss表示和方误差(SSE),
Figure BDA0002085343230000059
Qs表示协方差,
Figure BDA00020853432300000510
t表示每个标记值的时间索引,Ns表示序列s长度;基于此,以混合二进制向量的位数L+1作为每个片段的序列长度并考虑每一位对模型损失函数的贡献权值,重写公式(7)得到每个片段预测序列O和真实序列O*的CCC:
Figure BDA00020853432300000511
式中,O*,O分别表示片段真实的和预测的混合二进制向量,λ=(λ12,...,λL+1)表示O对片段损失函数的贡献参数集合;因此,将回归预测问题的CCC求解转化为多个二分类准确率的加权和,即
Figure BDA0002085343230000061
从而定义:
Figure BDA0002085343230000062
Figure BDA0002085343230000063
(ii)计算每首歌的平均CCC,由其每个片段的CCC和片段数计算得到:
Figure BDA0002085343230000064
式中,Ns表示每首歌曲的长度,即片段数;
利用Lasso回归将某些神经元的系数置为0来删除重复相关的变量和许多噪声特征,选择出情感显著性更强的SII-ASF;具体地,在损失函数
Figure BDA0002085343230000065
的基础上添加BCRFMs权值的Lasso惩罚项作为最终的目标函数:
Figure BDA0002085343230000066
式中,βF表示BCRFMs的参数集合,
Figure BDA0002085343230000067
类似的,
Figure BDA0002085343230000068
αF和αB是用来控制特征图稀疏度的超参数,α值越大,稀疏度越高;最小化L以删除噪声特征,选择出情感显著性特征,同时提高预测准确度。
本发明具有如下有益的技术效果:
本发明提供的一种基于双向卷积循环稀疏网络的音乐情感识别方法,首先将音频信号转化为时频图,其次采用CNN和RNN内部融合的方式建立音频时序模型来学习SII-ASF,同时结合加权混合二进制表示法将回归问题转化为多个二分类问题降低计算复杂度,最后进行音乐的连续情感识别。与目前普遍的音乐情感识别网络结构和最优方法相比,BCRSN模型可以明显减少训练时间并提高预测精度,提取的SII-ASF特征相比于MediaEval 2015中参赛者提出的最优特征表现出更优的预测性能。
附图说明
图1为本发明中BCRSN系统流程图;
图2为本发明中从数值型真实数据到混合二进制向量的转换过程图;
图3为本发明中在DEAM和MTurk音乐情感识别数据集上,BCRSN模型与基于CNN、基于BLSTM以及基于stacked CNN-BLSTM的模型在预测性能和训练时间方面的对比图。
具体实施方式
下面结合附图对本发明做进一步详细描述。
参照图1,本发明提供的一种基于双向卷积循环稀疏网络的音乐情感识别方法,首先将音频信号转化为时频图;其次采用卷积神经网络(CNN)和循环神经网络(RNN)内部融合的方式建立音频时序模型来学习内含时序信息的情感显著性特征(简称SII-ASF),同时结合加权混合二进制表示法将回归问题转化为多个二分类问题降低计算复杂度;最后进行音乐的连续情感识别,具体包括以下步骤:
1)音频信号的时频图转化:包括音频文件的时频图转化和对时频图的降维处理,具体有以下步骤,
Step1音频文件的时频图转化:将每个时域音频文件分割为固定时长的不重叠片段,针对每个片段,设置固定帧长和步长的滑动窗口将其转化为时频图;
Step2时频图的降维处理:采用PCA白化方法,设置一定的数据差异性保留度对时频图的频域维度进行降维。
2)建立音频时序模型学习内含时序信息的情感显著性特征:结合CNN自适应学习特征和RNN处理时序数据的能力构建双向卷积循环稀疏网络(简称BCRSN)。参照图1,将输入的二维时频图通过CNN局部互连和权值共享的方式来代替每一帧ti内输入层和正向和反向卷积循环层(Forward/Backward 1c Layer)的层间连接,并且音频帧之间
Figure BDA0002085343230000081
Figure BDA0002085343230000082
设置双向循环传递时序信息来学习BCRFMs;同时使用LSTM网络模块代替BCRFMs中的每个神经元,使得BCRFMs内的特征之间具有长期依赖关系。
3)回归问题转化为二分类问题:包括加权二进制数值的表示和稀疏处理,参照图1和图2,具体有以下步骤,
Step1加权二进制数值的表示:基于表示数值型真实数据的方法,加权混合二进制表示法,将回归问题转化为多个二分类问题的加权联合以降低计算的复杂度;
Step2稀疏处理:使用CCC作为损失函数并向CCC中增加BCRFMs权值的Lasso惩罚项(L1正则化)作为模型的目标函数来使得BCRFMs尽可能稀疏,获取SII-ASF。
4)音乐的连续情感识别:将音频时频图输入BCRSN模型中,根据多个二分类的结果先对单个片段的音频内容进行情感识别,再对完整音乐文件的多个音频片段进行连续的情感识别。
参照图3,在DEAM和MTurk数据集上,本发明中的BCRSN模型与基于CNN、基于BLSTM以及基于stacked CNN-BLSTM的模型相比,Valence和Arousal维度的连续情感预测均取得最优性能。
参照表1,与MediaEval 2015的最优算法相比,本发明中的BCRSN模型可以在先验知识最少的情况下针对预测目标从原始音频信号中自适应的学习有效的特征,优于MediaEval2015中的前三个性能最优的方法(BLSTM-RNN、BLSTM-ELM和deep LSTM-RNN)。
表1:本发明中以原始音频信号为输入时,BCRSN模型与MediaEval 2015中的前三个性能最优的方法(BLSTM-RNN、BLSTM-ELM和deep LSTM-RNN)的对比。
Figure BDA0002085343230000083
Figure BDA0002085343230000091
注:N.S.-Not Significant表示该方法的性能与BCRSN模型比无显著性差异,否则表示有显著性差异。
参照表2,本发明中BCRSN模型在有Lasso惩罚项和无Lasso惩罚项时得到的SII-ASF和SII-NASF相比于MediaEval 2015中参赛者提出的特征集(JUNLP、PKUAIPL、HKPOLYU、THU-HCSIL和IRIT-SAMOVA),均表现出良好预测性能。
表2:本发明中提取的SII-ASF和SII-NASF特征与MediaEval 2015中参赛者提出的特征(JUNLP、PKUAIPL、HKPOLYU、THU-HCSIL和IRIT-SAMOVA)的性能对比。
Figure BDA0002085343230000092
Figure BDA0002085343230000101
注:N.S.-Not Significant表示该特征的性能与SII-ASF比无显著性差异,否则表示有显著性差异。

Claims (1)

1.一种基于双向卷积循环稀疏网络的音乐情感识别方法,其特征在于,该方法首先将音频信号转化为时频图;其次采用卷积神经网络和循环神经网络内部融合的方式建立音频时序模型来学习内含时序信息的情感显著性特征,简称SII-ASF,同时结合加权混合二进制表示法将回归问题转化为多个二分类问题降低计算复杂度;最后进行音乐的连续情感识别;具体包括以下步骤:
1)音频信号的时频图转化:包括音频文件的时频图转化和时频图的降维处理,具体有以下步骤,
1-1)音频文件的时频图转化:将每个时域音频文件分割为固定时长的不重叠片段,针对每个片段,设置固定帧长和步长的滑动窗口将其转化为时频图;具体操作为:以时长500ms的单位将每个时域音频文件分割为不重叠的片段,对于每一个分割后的音频片段,采用60ms帧长和10ms步长的滑动窗口将其转化为时频图;
1-2)时频图的降维处理:采用PCA白化方法,设置99%的数据差异性保留度对时频图的频域维度进行降维;具体操作为:以99%的数据差异性保留度进行PCA白化,将时频图频域的维度降低到45维,得到45×45大小的时频图作为BCRSN模型的输入;
2)建立音频时序模型学习内含时序信息的情感显著性特征:结合CNN自适应学习特征和RNN处理时序数据的能力构建双向卷积循环稀疏网络,简称BCRSN;通过CNN局部互连和权值共享的方式来改变模型输入层与隐藏层之间的连接,使用多个卷积核来获得双向卷积循环特征图组,简称BCRFMs;通过长短时记忆网络LSTM模块代替BCRFMs中的每个神经元来考虑BCRFMs之间的长期依赖关系,长短时记忆网络简称LSTM;具体操作为:使用64个3×1且步长为2的卷积核对时频图做时域范围内的卷积操作得到BCRFMs;BCRFMs内神经元之间存在按照音频帧的时间顺序的双向循环,某一帧的神经元的输入是其对应卷积结果与前/后一帧的神经元输出的加权和;同时利用LSTM模块修改BCRFMs中的每个神经元,通过该模块的输入、输出和遗忘门限来记忆任意时长片段的某一信息,最后用3×1大小的下采样操作降低特征图尺寸,加强模型的鲁棒性;
BCRFMs的学习,包含以下步骤:
(i)BCRSN模型输入层与正向和反向卷积循环层之间的连接以卷积核为媒介,正向和反向卷积循环层设置与CNN卷积层相同的神经元个数及排列方式,使得模型具有自适应学习不变特征的能力,通过公式(1)计算每个神经元的卷积结果:
Figure FDA0002943940520000021
式中,Cnt,k为第k个特征图位置(n,t)处神经元的卷积结果,n=1,2,...,(N-1)/2,t=1,2...,T;
Figure FDA0002943940520000022
为输入层对应位置(n,t)处的二维特征矩阵,Wk为第k个卷积核的权值参数;
(ii)BCRFMs内神经元之间存在按照音频帧的时间顺序的双向循环,某一帧的神经元的输入是其对应卷积结果与前/后一帧的神经元输出的加权和;
对于正向卷积循环层的特征图,每个神经元的输入用公式(2)表示:
Figure FDA0002943940520000023
输出表示为公式(3):
FOnt,k=σ(FInt,k+bnt,k) (3)
对于反向卷积循环层的特征图,每个神经元的输入用公式(4)表示:
Figure FDA0002943940520000024
输出表示为公式(5):
BOnt,k=σ(BInt,k+bnt,k) (5)
式中
Figure FDA0002943940520000025
表示第k个特征图前一帧t-1/t+1的所有神经元的输出结果;
Figure FDA0002943940520000026
Figure FDA0002943940520000027
分别表示前向传播和后向传播过程中神经元的连接矩阵,各个音频帧之间共享权值;bnt,k为网络偏置;
(iii)使用LSTM模块修改BCRFMs中的每个神经元,通过该模块的输入、输出和遗忘门限来记忆任意时长片段的某一信息,在正向和反向卷积循环层与正向和反向池化层之间在频域范围内进行下采样操作,用3×1大小的下采样区域内的最大特征来依次代表该区域的特征,降低特征图大小;
3)回归问题转化为二分类问题:包括二进制数值的表示和稀疏处理,具体有以下步骤,
3-1)二进制数值的表示:基于数值型真实数据的表示方法,加权混合二进制表示法,将回归问题转化为多个二分类问题的加权联合以降低模型的计算复杂度;具体操作为:在BCRSN模型输出层设置L+1个神经元,得到的预测序列用O表示;其中,O1预测真实值的正负,O2~OL+1预测真实值的绝对值大小,其范围在(0,1);每个神经元作为一个二分类器,从而将损失函数计算复杂度降低为O((L+1)×12)=O(L+1),使得模型收敛更快;
采用加权混合二进制数值表示方法,包含以下步骤:
(i)新的加权混合二进制表示法将数值型真实数据g转换为混合二进制向量O*来降低计算复杂度,该向量的每一位
Figure FDA0002943940520000031
用公式(6)计算得到:
Figure FDA0002943940520000032
式中g1=g;
Figure FDA0002943940520000033
由g1值的正负决定,当g1≥0时,
Figure FDA0002943940520000034
g1<0时,
Figure FDA0002943940520000035
(ii)设置输出层神经元Oi对模型损失函数的贡献权值来控制其收敛方向,提高预测精度,通过下式计算:
Figure FDA0002943940520000036
式中δ(·)表示损失函数的计算公式,λi表示Oi对损失函数的贡献;
3-2)稀疏处理:使用一致性相关系数作为损失函数并向CCC中增加惩罚项作为模型的目标函数来使得BCRFMs尽可能稀疏,获取SII-ASF,其中一致性相关系数简称CCC;具体操作为:使用CCC作为损失函数并向CCC中增加BCRFMs权值的Lasso惩罚项作为模型的目标函数来使得BCRFMs尽可能稀疏,获取SII-ASF;
以CCC作为损失函数以使网络得到更有区分性的训练;具体地,将每首歌分割为固定时长的片段且每个片段的真实数据转化为混合二进制向量O*,损失函数求解包含以下步骤:
(i)计算每个片段预测序列O和真实序列O*的CCC,序列样本s的预测序列fs和目标序列
Figure FDA0002943940520000041
之间的CCC定义为:
Figure FDA0002943940520000042
式中Ss表示和方误差(SSE),
Figure FDA0002943940520000043
Qs表示协方差,
Figure FDA0002943940520000044
t表示每个标记值的时间索引,Ns表示序列s长度;基于此,以混合二进制向量的位数L+1作为每个片段的序列长度并考虑每一位对模型损失函数的贡献权值,重写公式(7)得到每个片段预测序列O和真实序列O*的CCC:
Figure FDA0002943940520000045
式中,O*,O分别表示片段真实的和预测的混合二进制向量,λ=(λ12,...,λL+1)表示O对片段损失函数的贡献参数集合;因此,将回归预测问题的CCC求解转化为多个二分类准确率的加权和,即
Figure FDA0002943940520000046
从而定义:
Figure FDA0002943940520000047
Figure FDA0002943940520000048
(ii)计算每首歌的平均CCC,由其每个片段的CCC和片段数计算得到:
Figure FDA0002943940520000049
式中,Ns表示每首歌曲的长度,即片段数;
利用Lasso回归将某些神经元的系数置为0来删除重复相关的变量和许多噪声特征,选择出情感显著性更强的SII-ASF;具体地,在损失函数
Figure FDA00029439405200000410
的基础上添加BCRFMs权值的Lasso惩罚项作为最终的目标函数:
Figure FDA00029439405200000411
式中,βF表示BCRFMs的参数集合,
Figure FDA0002943940520000051
类似的,
Figure FDA0002943940520000052
αF和αB是用来控制特征图稀疏度的超参数,α值越大,稀疏度越高;最小化L以删除噪声特征,选择出情感显著性特征,同时提高预测准确度;
4)音乐的连续情感识别:根据多个二分类的结果先对一个片段的音频内容进行情感识别,再对完整音乐文件的多个音频片段进行连续的情感识别。
CN201910485792.9A 2019-06-05 2019-06-05 一种基于双向卷积循环稀疏网络的音乐情感识别方法 Active CN110223712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910485792.9A CN110223712B (zh) 2019-06-05 2019-06-05 一种基于双向卷积循环稀疏网络的音乐情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910485792.9A CN110223712B (zh) 2019-06-05 2019-06-05 一种基于双向卷积循环稀疏网络的音乐情感识别方法

Publications (2)

Publication Number Publication Date
CN110223712A CN110223712A (zh) 2019-09-10
CN110223712B true CN110223712B (zh) 2021-04-20

Family

ID=67819412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910485792.9A Active CN110223712B (zh) 2019-06-05 2019-06-05 一种基于双向卷积循环稀疏网络的音乐情感识别方法

Country Status (1)

Country Link
CN (1) CN110223712B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689902B (zh) * 2019-12-11 2020-07-14 北京影谱科技股份有限公司 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质
CN111326164B (zh) * 2020-01-21 2023-03-21 大连海事大学 一种半监督式音乐主旋律提取方法
CN113268628B (zh) * 2021-04-14 2023-05-23 上海大学 一种基于模块化的加权融合神经网络的音乐情感识别方法
CN115294644B (zh) * 2022-06-24 2024-07-02 北京昭衍新药研究中心股份有限公司 一种基于3d卷积参数重构的快速猴子行为识别方法
CN118298799B (zh) * 2024-06-06 2024-08-13 清华大学 基于稀疏滑动窗口的低时延生成音频检测连续学习方法、装置、设备及介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN106128479A (zh) * 2016-06-30 2016-11-16 福建星网视易信息系统有限公司 一种演唱情感识别方法及装置
CN106228977A (zh) * 2016-08-02 2016-12-14 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法
US9570091B2 (en) * 2012-12-13 2017-02-14 National Chiao Tung University Music playing system and music playing method based on speech emotion recognition
WO2017122798A1 (ja) * 2016-01-14 2017-07-20 国立研究開発法人産業技術総合研究所 目標値推定システム、目標値推定方法及び目標値推定用プログラム
CN107169409A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种情感识别方法及装置
CN107506722A (zh) * 2017-08-18 2017-12-22 中国地质大学(武汉) 一种基于深度稀疏卷积神经网络人脸情感识别方法
US20180075343A1 (en) * 2016-09-06 2018-03-15 Google Inc. Processing sequences using convolutional neural networks
CN108717856A (zh) * 2018-06-16 2018-10-30 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN109146066A (zh) * 2018-11-01 2019-01-04 重庆邮电大学 一种基于语音情感识别的虚拟学习环境自然交互方法
CN109147826A (zh) * 2018-08-22 2019-01-04 平安科技(深圳)有限公司 音乐情感识别方法、装置、计算机设备及计算机存储介质
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法
CN109599128A (zh) * 2018-12-24 2019-04-09 北京达佳互联信息技术有限公司 语音情感识别方法、装置、电子设备和可读介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9570091B2 (en) * 2012-12-13 2017-02-14 National Chiao Tung University Music playing system and music playing method based on speech emotion recognition
CN105469065B (zh) * 2015-12-07 2019-04-23 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
WO2017122798A1 (ja) * 2016-01-14 2017-07-20 国立研究開発法人産業技術総合研究所 目標値推定システム、目標値推定方法及び目標値推定用プログラム
CN106128479A (zh) * 2016-06-30 2016-11-16 福建星网视易信息系统有限公司 一种演唱情感识别方法及装置
CN106228977A (zh) * 2016-08-02 2016-12-14 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法
US20180075343A1 (en) * 2016-09-06 2018-03-15 Google Inc. Processing sequences using convolutional neural networks
CN107169409A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种情感识别方法及装置
CN107506722A (zh) * 2017-08-18 2017-12-22 中国地质大学(武汉) 一种基于深度稀疏卷积神经网络人脸情感识别方法
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN108717856A (zh) * 2018-06-16 2018-10-30 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN109147826A (zh) * 2018-08-22 2019-01-04 平安科技(深圳)有限公司 音乐情感识别方法、装置、计算机设备及计算机存储介质
CN109146066A (zh) * 2018-11-01 2019-01-04 重庆邮电大学 一种基于语音情感识别的虚拟学习环境自然交互方法
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法
CN109599128A (zh) * 2018-12-24 2019-04-09 北京达佳互联信息技术有限公司 语音情感识别方法、装置、电子设备和可读介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"LSTM for dynamic emotion and group emotion recognition in the wild";B Sun;《the 18th ACM International conference 》;20161231;全文 *
"review of data features-based music Emotion Recognition method";yang Xinyu;《multimedia system》;20180630;第24卷(第4期);全文 *
"stacked convolutional recurrent neural networks for music emotion recognition";M Malik;《arXiv:1706.02292v1》;20170607;全文 *
"基于深度学习的音乐情感识别";唐霞;《电脑知识与技术》;20190430;第15卷(第11期);全文 *
"跨库语音情感识别若干关键技术研究";张昕然;《中国博士学位论文全文数据库信息科技辑》;20171115;全文 *

Also Published As

Publication number Publication date
CN110223712A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN110223712B (zh) 一种基于双向卷积循环稀疏网络的音乐情感识别方法
CN111667884B (zh) 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
Choi et al. Convolutional recurrent neural networks for music classification
CN110442705B (zh) 一种基于概念指针网络的摘要自动生成方法
Sirat et al. Neural trees: a new tool for classification
CN109599091B (zh) 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN110600047A (zh) 基于Perceptual STARGAN的多对多说话人转换方法
CN111816156A (zh) 基于说话人风格特征建模的多对多语音转换方法及系统
CN109063820A (zh) 利用时频联合长时循环神经网络的数据处理方法
CN110060657B (zh) 基于sn的多对多说话人转换方法
WO2020095321A2 (en) Dynamic structure neural machine for solving prediction problems with uses in machine learning
CN111461322A (zh) 一种深度神经网络模型压缩方法
CN108876044B (zh) 一种基于知识增强神经网络的线上内容流行度预测方法
CN111276187B (zh) 一种基于自编码器的基因表达谱特征学习方法
CN112949610A (zh) 一种基于降噪算法的改进Elman神经网络的预测方法
CN110600046A (zh) 基于改进的STARGAN和x向量的多对多说话人转换方法
CN116469561A (zh) 一种基于深度学习的乳腺癌生存预测方法
CN117251705A (zh) 一种每日天然气负荷预测方法
CN116458896A (zh) 一种基于时序特征图与注意力机制的心电图分类方法和装置
CN116342961A (zh) 基于混合量子神经网络的时间序列分类深度学习系统
CN115810351A (zh) 一种基于视听融合的管制员语音识别方法及装置
CN117036862B (zh) 基于高斯混合变分自编码器的图像生成方法
CN117056609A (zh) 一种基于多层聚合增强对比学习的会话推荐方法
Jie et al. Regularized flexible activation function combination for deep neural networks
CN114743569A (zh) 一种基于双层融合深度网络的语音情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant