CN108648767B - 一种流行歌曲情感综合与分类方法 - Google Patents
一种流行歌曲情感综合与分类方法 Download PDFInfo
- Publication number
- CN108648767B CN108648767B CN201810305399.2A CN201810305399A CN108648767B CN 108648767 B CN108648767 B CN 108648767B CN 201810305399 A CN201810305399 A CN 201810305399A CN 108648767 B CN108648767 B CN 108648767B
- Authority
- CN
- China
- Prior art keywords
- emotion
- song
- music
- refrain
- segments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 122
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 19
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 26
- 230000011218 segmentation Effects 0.000 claims abstract description 24
- 230000002996 emotional effect Effects 0.000 claims abstract description 16
- 239000012634 fragment Substances 0.000 claims description 15
- 230000014509 gene expression Effects 0.000 claims description 12
- 241001342895 Chorus Species 0.000 claims description 8
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- ONIKNECPXCLUHT-UHFFFAOYSA-N 2-chlorobenzoyl chloride Chemical compound ClC(=O)C1=CC=CC=C1Cl ONIKNECPXCLUHT-UHFFFAOYSA-N 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000003909 pattern recognition Methods 0.000 claims description 2
- 230000005284 excitation Effects 0.000 claims 1
- 241000282414 Homo sapiens Species 0.000 abstract description 3
- 230000019771 cognition Effects 0.000 abstract description 3
- 230000002194 synthesizing effect Effects 0.000 abstract description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 15
- 238000000605 extraction Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 2
- 230000037007 arousal Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 206010048909 Boredom Diseases 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000013872 defecation Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000006397 emotional response Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/056—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/061—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Child & Adolescent Psychology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种流行歌曲情感综合与分类方法涉及音频信息处理领域。首先,对一首音乐进行音乐副歌出现模式判别,确定不同的流行音乐模式;其次,采用一种柔性分段方法将一首歌曲分为N个片段,对每一个片段预测其愉悦度与激烈度;依据一首流行音乐的模式和N个音乐片段的愉悦度和激烈度结果,选用不同的分类器,进行整首音乐情感综合,得出整首音乐的情感标签。其优点在于采用柔性分割技术进行V/A情感演化特征提取,分别进行处理,使对不同结构流行歌曲情感分类器的训练更有针对性;采用流行歌曲结构及情感演化特征进行进行歌曲情感分类,与单纯的基于整首歌的统计特性进行综合的方法,更能反映人类对音乐的情感认知过程和特点。
Description
技术领域
本发明涉及音频信息处理领域的一种面向全曲的自动流行音乐情感分类方法.
背景技术
当前针对歌曲情感分类的方法的研究对象多为处理歌曲中的一个片段,一个基本的思路是将片段划分为定长的帧,对帧直接进行情感分类然后统计歌曲片段中占主导地位的情感类型做为歌曲片段的情感类型标签。也有采用帧袋[2]的方式建模,再基于帧袋进行整段歌曲进行分类的,但这些方法没有考虑在欣赏歌曲时人类情感响应的内在特点。实际上,人们对整首歌曲的情感感知受到情感表现在歌曲不同位置出现的影响,也受到情感表现发展过程的影响,传统的帧袋特征忽略了这些因素。人们还提出了采用副歌为代表段进行歌曲情感分类的方案[3],但没有给出根据不同段落进行情感综合的方法。本发明基于歌曲结构规律表现和听众音乐情感识别过程的观察和分析,设计一种二阶段情感综合与分类方法来判别整首歌曲的情感标签。
本发明的歌曲情感综合方法设计主要依据如下观察:一、歌曲情感表现在一定时间段内是稳定的;二、歌曲的不同段落对歌曲整体的情感表达贡献度是不同的,其情感演化对整首音乐的情感认知是有影响的;三、大部分歌曲的结构是遵从一定规律,也就是前奏、尾奏、副歌、主歌等的出现在歌曲的相对位置上遵从一定的规律,尽管可能有例外和不是十分严格。
发明内容
本发明给出一种对流行音乐进行自动歌曲情感综合与分类的技术方案。歌曲情感综合与分类分两阶段,首先,对一首音乐进行音乐副歌出现模式判别,确定不同的流行音乐模式;其次采用一种柔性分段方法将一首歌曲分为N个片段(N的大小与歌曲副歌出现的次数相关),对每一个片段预测其愉悦度与激烈度;其次,依据一首流行音乐的模式和N个音乐片段的愉悦度和激烈度结果,选用不同的分类器,进行整首音乐情感综合,得出整首音乐的情感标签。
本发明将歌曲音乐情感综合分为两个阶段。第一为对一首歌的音乐片段的激烈度和愉悦度预测,形成歌曲情感演化序列。
歌曲的情感演化序列是建立在歌曲分段的基础上的。为了完成对一首音乐进行分段,本发明首先需要进行流行歌曲结构分析,并对一首流行歌曲按副歌出现情况进行分类。
流行歌曲的典型结构为前奏、主歌1、副歌、主歌2、副歌、主歌3、副歌、尾奏。不是所有的流行歌曲都严格遵从这一格式,一些歌曲有一定的变化,在主副歌之间可以有桥段等。
本发明采用副歌识别算法进行副歌识别,副歌识别后,一首歌曲将呈现其它段,副歌,其它段,副歌交替出现的模式,其中其它段包括前奏,主歌,桥段或其组合。本发明根据副歌出现的重复模式将流行歌曲分为k类,分为无副歌结构,2次副歌出现,3次副歌出现,...,k次副歌出现结构,一般取k不大于5。如果歌曲模式识别器识别出副歌出现次数大于5,令k=5,将其归为与k=5的歌曲一类,并在后续处理中略掉第六次副歌出现及其后面的音乐内容。为了便于处理,本发明略掉最后一次副歌出现后面的歌曲内容。
在流行音乐歌曲模式检测完成后,如果检测到副歌,会得到各段副歌的起止时间。然后本发明采用一种柔性分段策略对歌曲进行分段,将一首完整的歌曲分为N个片段。为了使一个歌曲片段内的情感表现大体稳定,每个片段的时长应不大于10s。为了对片段在歌曲中的位置有较好的区分度,N要足够大并与歌曲的副歌出现特点有关。
便于处理,本发明设计的柔性分段方案如下:
第一类为无重复副歌结构。对于无重复副歌结构,将歌曲等分为N=N1=40个片段。本发明假定流行歌曲的长度一般不大于400s.如果大于400s,将进行离散采样,等间距取出N1个10s的片段。对于歌曲长度L<400s的歌曲,片段长度Lc=L/N。
第二类为二次重复结构。对于二次重复结构OCOC(C代表副歌片段,O代表其他类别片段),本发明将其它段与副歌段进行等数量分段。每个其它段O和每个副歌段C都分为M个小片段,每个小片段长度不大于10s,如果大于10s,进行10s片段的等距离采样。歌曲总共分为N=N2=4M个片段,其中M为正整数,建议取10。
第三类为三次重复结构。对于三次重复结构OCOCOC,本发明将其它段与副歌段进行等数量分段。每个其它段O和每个副歌段C都分为M个小片段,每个小片段长度不大于10s,如果大于10s,进行10s片段的等距离采样。歌曲总共分为N=N3=6M个片段,其中M为正整数,建议取7。
第四类为四次重复结构,第五类为5次及以上重复结构。对于4次重复结构OCOCOCOC,和5以上次重复结构,分段方法与前面的重复结构类似,相应分为N=N4=8M和N=N5=10M段,M分别建议取5和4。
为了识别音乐片段的的情感,本发明基于音乐有序片段的情感数据集训练音乐片段情感预测器。音乐片段情感的预测中采用Thayer的Valence-Arousal(V-A)模型[1]来表示情感,分为愉悦度(valence)和激烈度(arousal)两个维度。愉悦度表示情感的正面和负面属性,激烈度指示情感的强烈程度(intensity)。音乐情感表示为激烈度和愉悦度指数<v,a>,v,a的取值范围为[-1,+1]之间的实数。面向音乐片段的情感预测模型是由具有稳定情感表达的音乐片段经训练所得,本发明称之为V/A预测器,是由音乐片段声学特征到V/A值的一个映射,其一般表示如式1,2,具体根据实施时选择的分类器而有所不同。
V=fV(x1,x2,…,xi,…,xn) (1)
A=fA(x1,x2,…,xi,…,xn) (2)
其中xi(i=1,...,n)为音乐片段的第i个声学特征值,n为进行V/A值预测式选取的音乐声学特征数量。
对于一首完整的流行歌曲,为了识别整首歌曲的情感分类,需要根据整首音乐情感表现进行综合分类。为了准确综合一首歌曲的情感,本发明首先识别歌曲的不同结构模式,为不同结构的歌曲训练不同的情感分类器进行歌曲情感综合与分类。本发明认为,结构相似的歌曲,其相对位置相同的歌曲片段在歌曲情感表现中充当的角色有一定的相似性。对于每一首歌曲,经过分片情感预测,会得到N个激烈度指数和N个愉悦度指数,这两组指数可以组合成一个序列E=<a1,v1,a2,v2,...,aN,vN>作为情感综合的输入特征。在情感综合阶段,本发明采用这个序列来预测一首歌曲的情感标签,此特征不但反映了整首歌曲的情感统计特性,还反映了歌曲情感表现的时序特性及不同音乐片段的情感表现。
为了完成整首歌情感综合,本发明需要训练用于歌曲情感综合的分类器。其输入为某一类结构歌曲情感演化序列E,输出为歌曲情感标签。歌曲情感综合分类器将针对不同副歌出现模式的歌曲分别训练,得到5个歌曲情感综合分类器,与前述歌曲模式归类相对应。歌曲情感演化序列E的获取依赖于前述歌曲模式识别与歌曲分段以及A/V预测器。歌曲情感综合的分类器fj,的一般形式如式3,具体函数形式根据实施选择的分类器有所不同。
fj为第j类结构对应的情感综合分类函数。Lj为采用fj所得的分类标签,Nj含义为五种结构歌曲进行分片的对应片数,fj的输入为对应结构歌曲的情感演化序列。
本发明所提出的方法的系统框架如附图1,主要包括V/A预测器训练模块、情感分类器训练模块和歌曲情感综合分类模块。歌曲情感情感综合分类模块分两个阶段实现,第一阶段进行歌曲模式识别分割与情感演化序列生成,第二阶段采用分类器进行整首歌曲的情感综合与分类。
本发明给出了一种考虑音乐不同位置与段落的情感表现对整首歌曲情感标签影响的情感综合方法。其优点在于(1)采用预分类流行音乐副歌出现模式的方法,依据结构特征对流行歌曲进行预归类,采用柔性分割技术进行V/A情感演化特征提取,分别进行处理,使对不同结构流行歌曲情感分类器的训练更有针对性;(2)采用流行歌曲结构及情感演化特征进行进行歌曲情感分类,与单纯的基于整首歌的统计特性进行综合的方法,更能反映人类对音乐的情感认知过程和特点。
附图说明
图1一种流行音乐情感综合与分类方法系统架构图
图2副歌检测步骤
图3音调特征矩阵示例(450节拍,12个音调)
图4一个基于音调特征的自相似矩阵的示例
图5一种流行音乐情感综合与分类方法实施例系统架构图
具体实施方式:
V/A预测器训练模块完成流行歌曲V/A预测器的训练,主要包括音乐片段特征提取和训练两个子模块。特征提取子模块负责提取片段的音色、音调、节拍等声学特征。然后与对应的A/V标注值一起输入A/V预测器训练模块进行训练。
情感分类器训练模块包括特征提取、歌曲模式识别、歌曲分割、V/A预测器、情感分类器训练子模块。特征提取子模块负责歌曲声学特征提取,歌曲模式识别模块识别出流行歌曲模式和各段的分割位置,歌曲分割模块根据歌曲模式、各段分割位置和歌曲长度,完成柔性分割,形成不长于10s的歌曲片段,经V/A预测器产生情感演化系列,与歌曲情感标签一起输入情感分类器训练子模块进行情感分类器训练。
歌曲情感综合分类模块主要包括特征提取、歌曲模式识别、歌曲分割、V/A预测、情感分类几个子模块。由V/A预测器产生的情感演化序列进入情感分类器后,情感分类器根据歌曲模式识别的结果选择对应的预测模型进行一首歌曲的情感综合与分类,输出最有可能的情感标签或情感排序结果。
为了实施本发明,需要一定数量的已标注的流行音乐素材,包括流行音乐片段V/A值标注和整首流行音乐情感标签标注。V/A值标注采用区间的数值,如愉悦度V取[-1,+1]之间的实数,-1代表极端负面情绪,+1代表极端正面情绪;活动度取[-1,+1]之间的数值,-1代表非常平缓,+1代表活动度非常激烈。情感标签通常分为激昂、高兴、愉快、轻松、平静、悲伤、愤怒、宣泄、紧张、无聊等,情感标签不限于上述几种,与应用相关。
本发明实施例中可以但不限于提取如表1的音乐声学特征用于训练V/A预测器。V/A预测器在本实施例中采用多元线性回归预测。输入数据为流行音乐片段的声学特征和标注V/A值,输出为预测器参数。本实施例的V/A预测器可以分别训练愉悦度V与激烈度A的回归预测器。以愉悦度V回归预测器为例,其预测函数如公式4,其损失函数J如公式5。
V=hθ(x0,x2,...,xn)=θTx=θ0x0+θ1x1+θ2x2+…+θnxn (4)
其中hθ为愉悦度回归预测函数,θ=(θ0,...,θn)为模型参数,x=(x0,...,xn),x0=1,x1,...,xn为提取的音乐声学特征值。
其中m为训练用例数量,v(i)为第i个训练用例的愉悦度V标注值,x(i)为第i个训练用例的声学特征向量。训练V预测器采用梯度下降的法进行。
A值预测器的模型与训练方案与V值预测器类似。
本发明实施的另一个步骤是进行流行歌曲模式检测。本发明流行歌曲模式的识别的实施例采用基于自相似矩阵的副歌检测方法。具体步骤如图2.
本发明实施首先采用已有算法检测音乐信号中的节奏点的时间序列。在提取到音乐的节奏时间序列之后,依据提取到的节奏时间点进行分帧并加窗,然后提取歌曲每一帧的音调(Chroma)特征,Chroma特征是一个12维向量p=(p1,...,p12),对应12个音高类别C,C#,D,D#,E,F,F#,G,G#,A,A#,B,将一个节拍内所有帧的Chroma特征值进行平均,作为这一个节拍的的Chroma特征。一首歌曲Chroma特征矩阵示例如图3所示。
进行特征提取之后,使用如下的公式来计算每个节拍的音调特征向量与其他节拍的音调特征向量之间的距离:
其中,S是自相似矩阵,S(i,j)是矩阵S的元素,d是距离函数,本实施例采用欧氏距离,pi和pj分别是第i和第j个节拍的音调特征向量,m是音乐节拍数。图4是一个自相似矩阵的示例。从自相似矩阵中可以看到其中含有一些与主对角线平行的线段,这些线段表示了歌曲的重复段落。
计算出新的自相似矩阵S之后,本发明实施例通过检测自相似矩阵S中的对角线条纹来检测歌曲中的重复片段。在具体实施中,根据已有研究成果,一般取距离最短的2%的点为1,其它点为0进行二值化,所得的二值化后的相似矩阵基本包含了原始相似矩阵的片段相似信息。然后在二值化距离矩阵上进行副歌检测。由于噪声的影响,二值矩阵中,数值为1的点较为分散,因此需要将二值矩阵B沿对角线方向进行增强。在对角线方向上,如果两个值为1的点之间的时间距离<=1秒,将其间的点置1.另一个处理是对于那些时间长度<=2秒的条纹,直接将其置为0,因为过短的重复条纹是副歌的可能不大。
经过这样处理后,会有一些条纹其代表的音乐片段有重叠,对于这样的条纹要进行合并,合并的准则为如果两个条纹代表的音乐片段有80%以上的重合,就进行合并,用一条合并后的新条纹代表,这样又可以进一步减少候选条纹数量。然后挑出最长的30条条纹进行后续处理。
剩余的线段代表重复的歌曲片段,如果根据检测到的片段得到A片段与B片段重复,B片段与C片段重复,则可以说A,B,C片段重复了三次。本发明选择重复次数最大并且长度大于10秒的音乐片段为副歌。这样一首歌曲就会被分为其它段与副歌交替出现的形式,可以对其进行模式归类。
采用上述的音乐模式判别器和V/A预测器,可以对标注了情感类别的音乐进行音乐模式判别和情感演化序列E的提取。得到情感演化序列后,就可以进行情感分类器的训练。
本发明实施例选用支持向量机(SVM)分类器,对一种模式歌曲情感分类器的训练输入为其情感演化序列和情感标签,输出为SVM模型参数。
训练得到的SVM分类模型就可以用于进行新歌曲的情感分类了。
附表1可选的音乐声学特征
[1]R.E.Thayer,The Biopsychology of Mood and Arousal.Oxford,U.K.:Oxford Univ.Press,1989.
[2]J.-C.Wang,H.-S.Lee,H.-M.Wang,and S.-K.Jeng,“Learning thesimilarity of audio music in bag-of-frames representation from tagged musicdata,”in Proc.Int.Society for Music Information Retrieval Conference,2011,pp.85–90.
[3]Chia-Hung Yeh,Yu-Dun Lin,Ming-Sui Lee2and Wen-Yu Tseng,PopularMusic Analysis:Chorus and Emotion Detection,Proceedings of the Second APSIPAAnnual Summit and Conference,pages 907–910,Biopolis,Singapore,14-17December2010
Claims (2)
1.一种流行歌曲情感综合与分类方法,其特征在于分两阶段,首先,对一首音乐进行音乐副歌出现模式判别,确定不同的流行音乐模式;其次采用一种柔性分段方法将一首歌曲分为N个片段,对每一个片段预测其愉悦度与激烈度;其次,依据一首流行音乐的模式和N个音乐片段的愉悦度和激烈度结果,选用不同的分类器,进行整首音乐情感综合,得出整首音乐的情感标签;
对一首歌的音乐片段的激烈度和愉悦度预测,形成歌曲情感演化序列;
采用副歌识别算法进行副歌识别,副歌识别后,一首歌曲将呈现其它段,副歌,其它段,副歌交替出现的模式,其中其它段包括前奏,主歌或桥段;根据副歌出现的重复模式将流行歌曲分为k类,分为无副歌结构,2次副歌出现,3次副歌出现,...,k次副歌出现结构,取k不大于5,如果歌曲模式识别器识别出副歌出现次数大于5,令k=5,将其归为与k=5的歌曲一类,并在后续处理中略掉第六次副歌出现及其后面的音乐内容;在流行音乐歌曲模式检测完成后,如果检测到副歌,会得到各段副歌的起止时间;然后采用一种柔性分段策略对歌曲进行分段,将一首完整的歌曲分为N个片段;每个片段的时长应不大于10s;设计的柔性分段方案如下:
第一类为无重复副歌结构;对于无重复副歌结构,将歌曲等分为N=N1=40个片段;假定流行歌曲的长度不大于400s,如果大于400s,将进行离散采样,等间距取出N1个10s的片段;对于歌曲长度L<400s的歌曲,片段长度Lc=L/N;
第二类为二次重复结构;对于二次重复结构OCOC,其中C代表副歌片段,O代表其他类别片段,将其它段与副歌段进行等数量分段;每个其它段O和每个副歌段C都分为M个小片段,每个小片段长度不大于10s,如果大于10s,进行10s片段的等距离采样;歌曲总共分为N=N2=4M个片段,其中M为取10;
第三类为三次重复结构;对于三次重复结构OCOCOC,将其它段与副歌段进行等数量分段;每个其它段O和每个副歌段C都分为M个小片段,每个小片段长度不大于10s,如果大于10s,进行10s片段的等距离采样;歌曲总共分为N=N3=6M个片段,其中M为取7;
第四类为四次重复结构,第五类为5次及以上重复结构;对于4次重复结构OCOCOCOC,和5次以上重复结构,分段方法与前面的重复结构相同,相应分为N=N4=8M和N=N5=10M段,M分别取5和4。
2.根据权利要求1所述的方法,其特征在于,基于音乐有序片段的情感数据集训练音乐片段情感预测器;音乐片段情感的预测中采用Thayer的Valence-Arousal(V-A)模型来表示情感,分为愉悦度(valence)和激烈度(arousal)两个维度;愉悦度表示情感的正面和负面属性,激烈度指示情感的强烈程度(intensity);音乐情感表示为激烈度和愉悦度指数<v,a>,v,a的取值范围为[-1,+1]之间的实数;面向音乐片段的情感预测模型是由具有稳定情感表达的音乐片段经训练所得,称之为V/A预测器,是由音乐片段声学特征到V/A值的一个映射,其表示如式(1),(2),具体根据实施时选择的分类器而有所不同;
V=fV(x1,x2,…,xi,…,xn) (1)
A=fA(x1,x2,…,xi,…,xn) (2)
其中xi(i=1,...,n)为音乐片段的第i个声学特征值,n为进行V/A值预测式选取的音乐声学特征数量;
对于每一首歌曲,经过分片情感预测,会得到N个激烈度指数和N个愉悦度指数,这两组指数组合成一个序列E=<a1,v1,a2,v2,...,aN,vN>作为情感综合的输入特征;在情感综合阶段,采用这个序列来预测一首歌曲的情感标签,
训练用于歌曲情感综合的分类器,其输入为某一类结构歌曲情感演化序列E,输出为歌曲情感标签;歌曲情感综合分类器将针对不同副歌出现模式的歌曲分别训练,得到5个歌曲情感综合分类器,与歌曲模式归类相对应;歌曲情感演化序列E的获取依赖于歌曲模式识别与歌曲分段以及V/A预测器;fj为第j类结构对应的情感综合分类函数,形式如式(3)
Lj为采用fj所得的分类标签,Nj含义为五种结构歌曲进行分片的对应片数,fj的输入为对应结构歌曲的情感演化序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810305399.2A CN108648767B (zh) | 2018-04-08 | 2018-04-08 | 一种流行歌曲情感综合与分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810305399.2A CN108648767B (zh) | 2018-04-08 | 2018-04-08 | 一种流行歌曲情感综合与分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108648767A CN108648767A (zh) | 2018-10-12 |
CN108648767B true CN108648767B (zh) | 2021-11-05 |
Family
ID=63745734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810305399.2A Expired - Fee Related CN108648767B (zh) | 2018-04-08 | 2018-04-08 | 一种流行歌曲情感综合与分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108648767B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299312B (zh) * | 2018-10-18 | 2021-11-30 | 湖南城市学院 | 基于大数据的音乐节奏分析方法 |
CN111583890A (zh) * | 2019-02-15 | 2020-08-25 | 阿里巴巴集团控股有限公司 | 音频分类方法和装置 |
CN109829067B (zh) * | 2019-03-05 | 2020-12-29 | 北京达佳互联信息技术有限公司 | 音频数据处理方法、装置、电子设备及存储介质 |
GB2584598B (en) * | 2019-04-03 | 2024-02-14 | Emotional Perception Ai Ltd | Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content |
GB2583455A (en) * | 2019-04-03 | 2020-11-04 | Mashtraxx Ltd | Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content |
US11068782B2 (en) | 2019-04-03 | 2021-07-20 | Mashtraxx Limited | Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content |
CN110134823B (zh) * | 2019-04-08 | 2021-10-22 | 华南理工大学 | 基于归一化音符显马尔可夫模型的midi音乐流派分类方法 |
CN110377786A (zh) * | 2019-07-24 | 2019-10-25 | 中国传媒大学 | 音乐情感分类方法 |
CN110808065A (zh) * | 2019-10-28 | 2020-02-18 | 北京达佳互联信息技术有限公司 | 副歌检测方法、装置、电子设备及存储介质 |
CN112989105B (zh) * | 2019-12-16 | 2024-04-26 | 黑盒子科技(北京)有限公司 | 一种音乐结构的分析方法及系统 |
CN111462774B (zh) * | 2020-03-19 | 2023-02-24 | 河海大学 | 一种基于深度学习的音乐情感可信分类方法 |
CN111601433B (zh) * | 2020-05-08 | 2022-10-18 | 中国传媒大学 | 舞台灯光效果控制策略的预测方法及装置 |
GB2599441B (en) | 2020-10-02 | 2024-02-28 | Emotional Perception Ai Ltd | System and method for recommending semantically relevant content |
CN112614511A (zh) * | 2020-12-10 | 2021-04-06 | 央视国际网络无锡有限公司 | 一种歌曲情感检测的方法 |
CN113129871A (zh) * | 2021-03-26 | 2021-07-16 | 广东工业大学 | 基于音频信号及歌词的音乐情绪识别方法及系统 |
CN114446323B (zh) * | 2022-01-25 | 2023-03-10 | 电子科技大学 | 一种动态多维度的音乐情感分析方法及系统 |
CN115101094A (zh) * | 2022-06-20 | 2022-09-23 | 北京达佳互联信息技术有限公司 | 音频处理方法及装置、电子设备、存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080019031A (ko) * | 2005-06-01 | 2008-02-29 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 콘텐트 아이템의 특성을 결정하기 위한 방법 및 전자 장치 |
CN101937678A (zh) * | 2010-07-19 | 2011-01-05 | 东南大学 | 一种针对烦躁情绪的可据判的自动语音情感识别方法 |
KR20120021174A (ko) * | 2010-08-31 | 2012-03-08 | 한국전자통신연구원 | 감정 모델을 이용한 음악 검색 장치 및 방법 |
CN102930865A (zh) * | 2012-09-21 | 2013-02-13 | 重庆大学 | 一种波形音乐粗情感软切割分类方法 |
CN105931625A (zh) * | 2016-04-22 | 2016-09-07 | 成都涂鸦科技有限公司 | 基于文字输入的说唱音乐自动生成方法 |
-
2018
- 2018-04-08 CN CN201810305399.2A patent/CN108648767B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080019031A (ko) * | 2005-06-01 | 2008-02-29 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 콘텐트 아이템의 특성을 결정하기 위한 방법 및 전자 장치 |
CN101937678A (zh) * | 2010-07-19 | 2011-01-05 | 东南大学 | 一种针对烦躁情绪的可据判的自动语音情感识别方法 |
KR20120021174A (ko) * | 2010-08-31 | 2012-03-08 | 한국전자통신연구원 | 감정 모델을 이용한 음악 검색 장치 및 방법 |
CN102930865A (zh) * | 2012-09-21 | 2013-02-13 | 重庆大学 | 一种波形音乐粗情感软切割分类方法 |
CN102930865B (zh) * | 2012-09-21 | 2014-04-09 | 重庆大学 | 一种波形音乐粗情感软切割分类方法 |
CN105931625A (zh) * | 2016-04-22 | 2016-09-07 | 成都涂鸦科技有限公司 | 基于文字输入的说唱音乐自动生成方法 |
Non-Patent Citations (1)
Title |
---|
音乐内容和歌词相结合的歌曲情感分类方法研究;孙向琨;《硕士学位论文》;20131231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108648767A (zh) | 2018-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108648767B (zh) | 一种流行歌曲情感综合与分类方法 | |
Lehner et al. | A low-latency, real-time-capable singing voice detection method with LSTM recurrent neural networks | |
CN111161715B (zh) | 一种基于序列分类的特定声音事件检索与定位的方法 | |
Cakir et al. | Multi-label vs. combined single-label sound event detection with deep neural networks | |
Stowell | Computational bioacoustic scene analysis | |
US20200075019A1 (en) | System and method for neural network orchestration | |
CN110992988B (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
US11017780B2 (en) | System and methods for neural network orchestration | |
Shah et al. | Raga recognition in indian classical music using deep learning | |
CN111400540A (zh) | 一种基于挤压和激励残差网络的歌声检测方法 | |
Mounika et al. | Music genre classification using deep learning | |
Yasmin et al. | A rough set theory and deep learning-based predictive system for gender recognition using audio speech | |
CN111859011B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
Xia et al. | Confidence based acoustic event detection | |
Hou et al. | Transfer learning for improving singing-voice detection in polyphonic instrumental music | |
Kalinli et al. | Saliency-driven unstructured acoustic scene classification using latent perceptual indexing | |
Foucard et al. | Multi-scale temporal fusion by boosting for music classification. | |
Wadhwa et al. | Music genre classification using multi-modal deep learning based fusion | |
Theodorou et al. | Automatic sound recognition of urban environment events | |
CN105006231A (zh) | 基于模糊聚类决策树的分布式大型人口语者识别方法 | |
Viloria et al. | Segmentation process and spectral characteristics in the determination of musical genres | |
CN107493641A (zh) | 一种利用音乐驱动的灯光控制方法和装置 | |
CN117497008A (zh) | 基于声门振动序列动态建模的语音情感识别方法和工具 | |
Lee et al. | Automatic melody extraction algorithm using a convolutional neural network | |
He et al. | Deepchorus: A hybrid model of multi-scale convolution and self-attention for chorus detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211105 |
|
CF01 | Termination of patent right due to non-payment of annual fee |