CN108648767B

CN108648767B - 一种流行歌曲情感综合与分类方法

Info

Publication number: CN108648767B
Application number: CN201810305399.2A
Authority: CN
Inventors: 孙书韬; 王永滨; 曹轶臻; 王�琦; 赵庄言
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2018-04-08
Filing date: 2018-04-08
Publication date: 2021-11-05
Anticipated expiration: 2038-04-08
Also published as: CN108648767A

Abstract

一种流行歌曲情感综合与分类方法涉及音频信息处理领域。首先，对一首音乐进行音乐副歌出现模式判别，确定不同的流行音乐模式；其次，采用一种柔性分段方法将一首歌曲分为N个片段，对每一个片段预测其愉悦度与激烈度；依据一首流行音乐的模式和N个音乐片段的愉悦度和激烈度结果，选用不同的分类器，进行整首音乐情感综合，得出整首音乐的情感标签。其优点在于采用柔性分割技术进行V/A情感演化特征提取，分别进行处理，使对不同结构流行歌曲情感分类器的训练更有针对性；采用流行歌曲结构及情感演化特征进行进行歌曲情感分类，与单纯的基于整首歌的统计特性进行综合的方法，更能反映人类对音乐的情感认知过程和特点。

Description

一种流行歌曲情感综合与分类方法

技术领域

本发明涉及音频信息处理领域的一种面向全曲的自动流行音乐情感分类方法.

背景技术

当前针对歌曲情感分类的方法的研究对象多为处理歌曲中的一个片段，一个基本的思路是将片段划分为定长的帧，对帧直接进行情感分类然后统计歌曲片段中占主导地位的情感类型做为歌曲片段的情感类型标签。也有采用帧袋^[2]的方式建模，再基于帧袋进行整段歌曲进行分类的，但这些方法没有考虑在欣赏歌曲时人类情感响应的内在特点。实际上，人们对整首歌曲的情感感知受到情感表现在歌曲不同位置出现的影响，也受到情感表现发展过程的影响，传统的帧袋特征忽略了这些因素。人们还提出了采用副歌为代表段进行歌曲情感分类的方案^[3]，但没有给出根据不同段落进行情感综合的方法。本发明基于歌曲结构规律表现和听众音乐情感识别过程的观察和分析，设计一种二阶段情感综合与分类方法来判别整首歌曲的情感标签。

本发明的歌曲情感综合方法设计主要依据如下观察：一、歌曲情感表现在一定时间段内是稳定的；二、歌曲的不同段落对歌曲整体的情感表达贡献度是不同的，其情感演化对整首音乐的情感认知是有影响的；三、大部分歌曲的结构是遵从一定规律，也就是前奏、尾奏、副歌、主歌等的出现在歌曲的相对位置上遵从一定的规律，尽管可能有例外和不是十分严格。

发明内容

本发明给出一种对流行音乐进行自动歌曲情感综合与分类的技术方案。歌曲情感综合与分类分两阶段，首先，对一首音乐进行音乐副歌出现模式判别，确定不同的流行音乐模式；其次采用一种柔性分段方法将一首歌曲分为N个片段(N的大小与歌曲副歌出现的次数相关)，对每一个片段预测其愉悦度与激烈度；其次，依据一首流行音乐的模式和N个音乐片段的愉悦度和激烈度结果，选用不同的分类器，进行整首音乐情感综合，得出整首音乐的情感标签。

本发明将歌曲音乐情感综合分为两个阶段。第一为对一首歌的音乐片段的激烈度和愉悦度预测，形成歌曲情感演化序列。

歌曲的情感演化序列是建立在歌曲分段的基础上的。为了完成对一首音乐进行分段，本发明首先需要进行流行歌曲结构分析，并对一首流行歌曲按副歌出现情况进行分类。

流行歌曲的典型结构为前奏、主歌1、副歌、主歌2、副歌、主歌3、副歌、尾奏。不是所有的流行歌曲都严格遵从这一格式，一些歌曲有一定的变化，在主副歌之间可以有桥段等。

本发明采用副歌识别算法进行副歌识别，副歌识别后，一首歌曲将呈现其它段，副歌，其它段，副歌交替出现的模式，其中其它段包括前奏，主歌，桥段或其组合。本发明根据副歌出现的重复模式将流行歌曲分为k类，分为无副歌结构，2次副歌出现，3次副歌出现，...，k次副歌出现结构，一般取k不大于5。如果歌曲模式识别器识别出副歌出现次数大于5，令k＝5,将其归为与k＝5的歌曲一类，并在后续处理中略掉第六次副歌出现及其后面的音乐内容。为了便于处理，本发明略掉最后一次副歌出现后面的歌曲内容。

在流行音乐歌曲模式检测完成后，如果检测到副歌，会得到各段副歌的起止时间。然后本发明采用一种柔性分段策略对歌曲进行分段，将一首完整的歌曲分为N个片段。为了使一个歌曲片段内的情感表现大体稳定，每个片段的时长应不大于10s。为了对片段在歌曲中的位置有较好的区分度，N要足够大并与歌曲的副歌出现特点有关。

便于处理，本发明设计的柔性分段方案如下：

第一类为无重复副歌结构。对于无重复副歌结构，将歌曲等分为N＝N₁＝40个片段。本发明假定流行歌曲的长度一般不大于400s.如果大于400s，将进行离散采样，等间距取出N₁个10s的片段。对于歌曲长度L<400s的歌曲，片段长度Lc＝L/N。

第二类为二次重复结构。对于二次重复结构OCOC(C代表副歌片段，O代表其他类别片段)，本发明将其它段与副歌段进行等数量分段。每个其它段O和每个副歌段C都分为M个小片段，每个小片段长度不大于10s，如果大于10s,进行10s片段的等距离采样。歌曲总共分为N＝N₂＝4M个片段，其中M为正整数，建议取10。

第三类为三次重复结构。对于三次重复结构OCOCOC，本发明将其它段与副歌段进行等数量分段。每个其它段O和每个副歌段C都分为M个小片段，每个小片段长度不大于10s，如果大于10s,进行10s片段的等距离采样。歌曲总共分为N＝N₃＝6M个片段，其中M为正整数，建议取7。

第四类为四次重复结构，第五类为5次及以上重复结构。对于4次重复结构OCOCOCOC，和5以上次重复结构，分段方法与前面的重复结构类似，相应分为N＝N₄＝8M和N＝N₅＝10M段，M分别建议取5和4。

为了识别音乐片段的的情感，本发明基于音乐有序片段的情感数据集训练音乐片段情感预测器。音乐片段情感的预测中采用Thayer的Valence-Arousal(V-A)模型^[1]来表示情感,分为愉悦度(valence)和激烈度(arousal)两个维度。愉悦度表示情感的正面和负面属性，激烈度指示情感的强烈程度(intensity)。音乐情感表示为激烈度和愉悦度指数<v,a>，v,a的取值范围为[-1,+1]之间的实数。面向音乐片段的情感预测模型是由具有稳定情感表达的音乐片段经训练所得，本发明称之为V/A预测器，是由音乐片段声学特征到V/A值的一个映射，其一般表示如式1，2，具体根据实施时选择的分类器而有所不同。

V＝f_V(x₁,x₂,…,x_i,…,x_n) (1)

A＝f_A(x₁,x₂,…,x_i,…,x_n) (2)

其中x_i(i＝1,...,n)为音乐片段的第i个声学特征值,n为进行V/A值预测式选取的音乐声学特征数量。

对于一首完整的流行歌曲，为了识别整首歌曲的情感分类，需要根据整首音乐情感表现进行综合分类。为了准确综合一首歌曲的情感，本发明首先识别歌曲的不同结构模式，为不同结构的歌曲训练不同的情感分类器进行歌曲情感综合与分类。本发明认为，结构相似的歌曲，其相对位置相同的歌曲片段在歌曲情感表现中充当的角色有一定的相似性。对于每一首歌曲，经过分片情感预测，会得到N个激烈度指数和N个愉悦度指数，这两组指数可以组合成一个序列E＝＜a₁,v₁,a₂,v₂,...,a_N，v_N＞作为情感综合的输入特征。在情感综合阶段，本发明采用这个序列来预测一首歌曲的情感标签，此特征不但反映了整首歌曲的情感统计特性，还反映了歌曲情感表现的时序特性及不同音乐片段的情感表现。

为了完成整首歌情感综合，本发明需要训练用于歌曲情感综合的分类器。其输入为某一类结构歌曲情感演化序列E,输出为歌曲情感标签。歌曲情感综合分类器将针对不同副歌出现模式的歌曲分别训练，得到5个歌曲情感综合分类器，与前述歌曲模式归类相对应。歌曲情感演化序列E的获取依赖于前述歌曲模式识别与歌曲分段以及A/V预测器。歌曲情感综合的分类器f_j，的一般形式如式3，具体函数形式根据实施选择的分类器有所不同。

f_j为第j类结构对应的情感综合分类函数。L_j为采用f_j所得的分类标签，N_j含义为五种结构歌曲进行分片的对应片数，f_j的输入为对应结构歌曲的情感演化序列。

本发明所提出的方法的系统框架如附图1，主要包括V/A预测器训练模块、情感分类器训练模块和歌曲情感综合分类模块。歌曲情感情感综合分类模块分两个阶段实现，第一阶段进行歌曲模式识别分割与情感演化序列生成，第二阶段采用分类器进行整首歌曲的情感综合与分类。

本发明给出了一种考虑音乐不同位置与段落的情感表现对整首歌曲情感标签影响的情感综合方法。其优点在于(1)采用预分类流行音乐副歌出现模式的方法，依据结构特征对流行歌曲进行预归类，采用柔性分割技术进行V/A情感演化特征提取，分别进行处理，使对不同结构流行歌曲情感分类器的训练更有针对性；(2)采用流行歌曲结构及情感演化特征进行进行歌曲情感分类，与单纯的基于整首歌的统计特性进行综合的方法，更能反映人类对音乐的情感认知过程和特点。

附图说明

图1一种流行音乐情感综合与分类方法系统架构图

图2副歌检测步骤

图3音调特征矩阵示例(450节拍，12个音调)

图4一个基于音调特征的自相似矩阵的示例

图5一种流行音乐情感综合与分类方法实施例系统架构图

具体实施方式：

V/A预测器训练模块完成流行歌曲V/A预测器的训练，主要包括音乐片段特征提取和训练两个子模块。特征提取子模块负责提取片段的音色、音调、节拍等声学特征。然后与对应的A/V标注值一起输入A/V预测器训练模块进行训练。

情感分类器训练模块包括特征提取、歌曲模式识别、歌曲分割、V/A预测器、情感分类器训练子模块。特征提取子模块负责歌曲声学特征提取，歌曲模式识别模块识别出流行歌曲模式和各段的分割位置，歌曲分割模块根据歌曲模式、各段分割位置和歌曲长度，完成柔性分割，形成不长于10s的歌曲片段，经V/A预测器产生情感演化系列，与歌曲情感标签一起输入情感分类器训练子模块进行情感分类器训练。

歌曲情感综合分类模块主要包括特征提取、歌曲模式识别、歌曲分割、V/A预测、情感分类几个子模块。由V/A预测器产生的情感演化序列进入情感分类器后，情感分类器根据歌曲模式识别的结果选择对应的预测模型进行一首歌曲的情感综合与分类，输出最有可能的情感标签或情感排序结果。

为了实施本发明，需要一定数量的已标注的流行音乐素材，包括流行音乐片段V/A值标注和整首流行音乐情感标签标注。V/A值标注采用区间的数值，如愉悦度V取[-1,+1]之间的实数，-1代表极端负面情绪，+1代表极端正面情绪；活动度取[-1,+1]之间的数值，-1代表非常平缓，+1代表活动度非常激烈。情感标签通常分为激昂、高兴、愉快、轻松、平静、悲伤、愤怒、宣泄、紧张、无聊等，情感标签不限于上述几种，与应用相关。

本发明实施例中可以但不限于提取如表1的音乐声学特征用于训练V/A预测器。V/A预测器在本实施例中采用多元线性回归预测。输入数据为流行音乐片段的声学特征和标注V/A值，输出为预测器参数。本实施例的V/A预测器可以分别训练愉悦度V与激烈度A的回归预测器。以愉悦度V回归预测器为例，其预测函数如公式4，其损失函数J如公式5。

V＝h_θ(x₀,x₂,...,x_n)＝θ^Tx＝θ₀x₀+θ₁x₁+θ₂x₂+…+θ_nx_n (4)

其中h_θ为愉悦度回归预测函数，θ＝(θ₀,...,θ_n)为模型参数，x＝(x₀，...,x_n),x₀＝1，x₁，...，x_n为提取的音乐声学特征值。

其中m为训练用例数量，v⁽ⁱ⁾为第i个训练用例的愉悦度V标注值，x⁽ⁱ⁾为第i个训练用例的声学特征向量。训练V预测器采用梯度下降的法进行。

A值预测器的模型与训练方案与V值预测器类似。

本发明实施的另一个步骤是进行流行歌曲模式检测。本发明流行歌曲模式的识别的实施例采用基于自相似矩阵的副歌检测方法。具体步骤如图2.

本发明实施首先采用已有算法检测音乐信号中的节奏点的时间序列。在提取到音乐的节奏时间序列之后，依据提取到的节奏时间点进行分帧并加窗，然后提取歌曲每一帧的音调(Chroma)特征，Chroma特征是一个12维向量p＝(p₁,...,p₁₂)，对应12个音高类别C,C#,D,D#,E,F,F#,G,G#,A,A#,B，将一个节拍内所有帧的Chroma特征值进行平均，作为这一个节拍的的Chroma特征。一首歌曲Chroma特征矩阵示例如图3所示。

进行特征提取之后，使用如下的公式来计算每个节拍的音调特征向量与其他节拍的音调特征向量之间的距离：

其中，S是自相似矩阵，S(i,j)是矩阵S的元素，d是距离函数，本实施例采用欧氏距离，pⁱ和p^j分别是第i和第j个节拍的音调特征向量，m是音乐节拍数。图4是一个自相似矩阵的示例。从自相似矩阵中可以看到其中含有一些与主对角线平行的线段，这些线段表示了歌曲的重复段落。

计算出新的自相似矩阵S之后，本发明实施例通过检测自相似矩阵S中的对角线条纹来检测歌曲中的重复片段。在具体实施中，根据已有研究成果，一般取距离最短的2％的点为1，其它点为0进行二值化，所得的二值化后的相似矩阵基本包含了原始相似矩阵的片段相似信息。然后在二值化距离矩阵上进行副歌检测。由于噪声的影响，二值矩阵中，数值为1的点较为分散，因此需要将二值矩阵B沿对角线方向进行增强。在对角线方向上，如果两个值为1的点之间的时间距离＜＝1秒,将其间的点置1.另一个处理是对于那些时间长度＜＝2秒的条纹，直接将其置为0，因为过短的重复条纹是副歌的可能不大。

经过这样处理后，会有一些条纹其代表的音乐片段有重叠，对于这样的条纹要进行合并，合并的准则为如果两个条纹代表的音乐片段有80％以上的重合，就进行合并，用一条合并后的新条纹代表，这样又可以进一步减少候选条纹数量。然后挑出最长的30条条纹进行后续处理。

剩余的线段代表重复的歌曲片段，如果根据检测到的片段得到A片段与B片段重复，B片段与C片段重复，则可以说A,B,C片段重复了三次。本发明选择重复次数最大并且长度大于10秒的音乐片段为副歌。这样一首歌曲就会被分为其它段与副歌交替出现的形式，可以对其进行模式归类。

采用上述的音乐模式判别器和V/A预测器，可以对标注了情感类别的音乐进行音乐模式判别和情感演化序列E的提取。得到情感演化序列后，就可以进行情感分类器的训练。

本发明实施例选用支持向量机(SVM)分类器，对一种模式歌曲情感分类器的训练输入为其情感演化序列和情感标签，输出为SVM模型参数。

训练得到的SVM分类模型就可以用于进行新歌曲的情感分类了。

附表1可选的音乐声学特征

[1]R.E.Thayer,The Biopsychology of Mood and Arousal.Oxford,U.K.:Oxford Univ.Press,1989.

[2]J.-C.Wang,H.-S.Lee,H.-M.Wang,and S.-K.Jeng,“Learning thesimilarity of audio music in bag-of-frames representation from tagged musicdata,”in Proc.Int.Society for Music Information Retrieval Conference,2011,pp.85–90.

[3]Chia-Hung Yeh,Yu-Dun Lin,Ming-Sui Lee2and Wen-Yu Tseng，PopularMusic Analysis:Chorus and Emotion Detection,Proceedings of the Second APSIPAAnnual Summit and Conference,pages 907–910,Biopolis,Singapore,14-17December2010

Claims

1.一种流行歌曲情感综合与分类方法，其特征在于分两阶段，首先，对一首音乐进行音乐副歌出现模式判别，确定不同的流行音乐模式；其次采用一种柔性分段方法将一首歌曲分为N个片段，对每一个片段预测其愉悦度与激烈度；其次，依据一首流行音乐的模式和N个音乐片段的愉悦度和激烈度结果，选用不同的分类器，进行整首音乐情感综合，得出整首音乐的情感标签；

对一首歌的音乐片段的激烈度和愉悦度预测，形成歌曲情感演化序列；

采用副歌识别算法进行副歌识别，副歌识别后，一首歌曲将呈现其它段，副歌，其它段，副歌交替出现的模式，其中其它段包括前奏，主歌或桥段；根据副歌出现的重复模式将流行歌曲分为k类，分为无副歌结构，2次副歌出现，3次副歌出现，...,k次副歌出现结构，取k不大于5，如果歌曲模式识别器识别出副歌出现次数大于5，令k＝5,将其归为与k＝5的歌曲一类，并在后续处理中略掉第六次副歌出现及其后面的音乐内容；在流行音乐歌曲模式检测完成后，如果检测到副歌，会得到各段副歌的起止时间；然后采用一种柔性分段策略对歌曲进行分段，将一首完整的歌曲分为N个片段；每个片段的时长应不大于10s；设计的柔性分段方案如下：

第一类为无重复副歌结构；对于无重复副歌结构，将歌曲等分为N＝N₁＝40个片段；假定流行歌曲的长度不大于400s，如果大于400s，将进行离散采样，等间距取出N₁个10s的片段；对于歌曲长度L<400s的歌曲，片段长度Lc＝L/N；

第二类为二次重复结构；对于二次重复结构OCOC，其中C代表副歌片段，O代表其他类别片段，将其它段与副歌段进行等数量分段；每个其它段O和每个副歌段C都分为M个小片段，每个小片段长度不大于10s，如果大于10s,进行10s片段的等距离采样；歌曲总共分为N＝N₂＝4M个片段，其中M为取10；

第三类为三次重复结构；对于三次重复结构OCOCOC，将其它段与副歌段进行等数量分段；每个其它段O和每个副歌段C都分为M个小片段，每个小片段长度不大于10s，如果大于10s,进行10s片段的等距离采样；歌曲总共分为N＝N₃＝6M个片段，其中M为取7；

第四类为四次重复结构，第五类为5次及以上重复结构；对于4次重复结构OCOCOCOC，和5次以上重复结构，分段方法与前面的重复结构相同，相应分为N＝N₄＝8M和N＝N₅＝10M段，M分别取5和4。

2.根据权利要求1所述的方法，其特征在于，基于音乐有序片段的情感数据集训练音乐片段情感预测器；音乐片段情感的预测中采用Thayer的Valence-Arousal(V-A)模型来表示情感,分为愉悦度(valence)和激烈度(arousal)两个维度；愉悦度表示情感的正面和负面属性，激烈度指示情感的强烈程度(intensity)；音乐情感表示为激烈度和愉悦度指数<v,a>，v,a的取值范围为[-1,+1]之间的实数；面向音乐片段的情感预测模型是由具有稳定情感表达的音乐片段经训练所得，称之为V/A预测器，是由音乐片段声学特征到V/A值的一个映射，其表示如式(1)，(2)，具体根据实施时选择的分类器而有所不同；

V＝f_V(x₁,x₂,…,x_i,…,x_n) (1)

A＝f_A(x₁,x₂,…,x_i,…,x_n) (2)

其中x_i(i＝1,...,n)为音乐片段的第i个声学特征值,n为进行V/A值预测式选取的音乐声学特征数量；

对于每一首歌曲，经过分片情感预测，会得到N个激烈度指数和N个愉悦度指数，这两组指数组合成一个序列E＝<a₁,v₁,a₂,v₂,...,a_N，v_N>作为情感综合的输入特征；在情感综合阶段，采用这个序列来预测一首歌曲的情感标签，

训练用于歌曲情感综合的分类器，其输入为某一类结构歌曲情感演化序列E,输出为歌曲情感标签；歌曲情感综合分类器将针对不同副歌出现模式的歌曲分别训练，得到5个歌曲情感综合分类器，与歌曲模式归类相对应；歌曲情感演化序列E的获取依赖于歌曲模式识别与歌曲分段以及V/A预测器；f_j为第j类结构对应的情感综合分类函数，形式如式(3)

L_j为采用f_j所得的分类标签，N_j含义为五种结构歌曲进行分片的对应片数，f_j的输入为对应结构歌曲的情感演化序列。