CN109670074A - 一种节奏点识别方法、装置、电子设备及存储介质 - Google Patents
一种节奏点识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN109670074A CN109670074A CN201811519398.4A CN201811519398A CN109670074A CN 109670074 A CN109670074 A CN 109670074A CN 201811519398 A CN201811519398 A CN 201811519398A CN 109670074 A CN109670074 A CN 109670074A
- Authority
- CN
- China
- Prior art keywords
- point
- rhythm point
- target
- grouping
- alternative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000033764 rhythmic process Effects 0.000 title claims abstract description 416
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000005236 sound signal Effects 0.000 claims abstract description 165
- 230000003595 spectral effect Effects 0.000 claims abstract description 18
- 230000011664 signaling Effects 0.000 claims description 112
- 238000012545 processing Methods 0.000 claims description 24
- 238000012216 screening Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 5
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000009499 grossing Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000002045 lasting effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000001145 finger joint Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本公开公开了一种节奏点识别方法、装置、电子设备及存储介质。该方法包括:根据待识别的音频信号的频谱特性,在所述音频信号中确定至少一个备选节奏点,并获取与各所述备选节奏点对应的起点时间;将各所述备选节奏点按照对应的起点时间,映射至所述音频信号的趋势拟合包络信号中,并根据所述趋势拟合包络信号的波形特征,在各所述备选节奏点中确定目标节奏点;根据所述音频信号的节拍信息,确定与各所述目标节奏点对应的音量信息,并根据所述音频信号的波动拟合包络信号以及所述音频信号的节拍信息,确定与各所述目标节奏点对应的持续时间。本公开实施例可以自动准确识别节奏点,提高节奏点识别效率。
Description
技术领域
本公开实施例涉及信号处理技术,尤其涉及一种节奏点识别方法、装置、电子设备及存储介质。
背景技术
随着通信技术和电子设备的发展,各种电子设备例如手机、平板电脑等已经成为了人们工作和生活中不可或缺的一部分,而且随着电子设备的日益普及,交互应用成为一种沟通和娱乐的主要渠道。
目前,音乐交互应用能够根据音乐的节奏点,将交互提示展示给用户,用户根据交互提示输入交互操作,从而,实现激活视频特效并显示。但目前节奏点一般是通过人工标注确定的,导致节奏点识别时间成本高,同时音乐交互应用中的音乐更新周期长。
发明内容
本公开实施例提供一种节奏点识别方法、装置、电子设备及存储介质,可以自动准确识别节奏点,提高节奏点识别效率。
第一方面,本公开实施例提供了一种节奏点识别方法,该方法包括:
根据待识别的音频信号的频谱特性,在所述音频信号中确定至少一个备选节奏点,并获取与各所述备选节奏点对应的起点时间;
将各所述备选节奏点按照对应的起点时间,映射至所述音频信号的趋势拟合包络信号中,并根据所述趋势拟合包络信号的波形特征,在各所述备选节奏点中确定目标节奏点;
根据所述音频信号的节拍信息,确定与各所述目标节奏点对应的音量信息,并根据所述音频信号的波动拟合包络信号以及所述音频信号的节拍信息,确定与各所述目标节奏点对应的持续时间;
将与每个所述目标节奏点对应的起点时间、音量信息以及持续时间作为对所述音频信号的节奏点识别结果。
进一步的,根据待识别的音频信号的频谱特性,在所述音频信号中确定至少一个备选节奏点,并获取与各所述备选节奏点对应的起点时间,包括:
将所述音频信号中的各个信号点进行分组处理,其中,每个分组中包括设定数量的相邻信号点,不同分组中包括的信号点相异或者部分重叠;
根据每个分组中各信号点的信号频域特征参数,计算与各所述分组对应的分组频域特征参数;
根据与各分组对应的分组频域特征参数,以及预设的特征筛选条件,在各所述分组中筛选出目标分组,并根据目标分组对应的各信号点确定一个备选节奏点;
将目标分组中各信号点对应的时间区间中,选择一个时间点作为与所述目标分组对应的备选节奏点的起点时间。
进一步的,根据与各分组对应的分组频域特征参数,以及预设的特征筛选条件,在各所述分组中筛选出目标分组,包括:
将连续设定数量的分组作为一个分组集合;
当确定所述分组集合满足频域特征阈值条件时,将所述分组集合中的首个分组作为备选目标分组;
从各所述备选目标分组中剔除满足相邻剔除条件的备选目标分组,将剩下的备选目标分组作为目标分组。
进一步的,所述将各所述备选节奏点按照对应的起点时间,映射至所述音频信号的趋势拟合包络信号中,根据所述趋势拟合包络信号的波形特征,在各所述备选节奏点中确定目标节奏点,包括:
根据所述趋势拟合包络信号的波形特征,识别所述趋势拟合包络信号中的波峰点;
将各所述备选节奏点按照对应的起点时间,映射至所述趋势拟合包络信号中,并将与各所述波峰点最近的备选节奏点作为目标节奏点。
进一步的,所述根据所述音频信号的节拍信息,确定与各所述目标节奏点对应的音量信息,包括:
根据所述目标节奏点对应的起点时间以及所述音频信号的节拍信息,确定所述目标节奏点匹配的音量区间;
根据所述音量区间中各信号点的信号时域特征参数,计算与所述目标节奏点对应的音量信息。
进一步的,所述根据所述音频信号的波动拟合包络信号以及所述音频信号的节拍信息,确定与各所述目标节奏点对应的持续时间,包括:
将任意相邻两个目标节奏点按照对应的起点时间,映射至波动拟合包络信号中,并根据所述波动拟合包络信号的波形特征,确定与所述相邻两个目标节奏点匹配的信号点的起点时间;
将所述相邻两个目标节奏点中的首个目标节奏点对应的起点时间,以及与所述相邻两个目标节奏点匹配的信号点的起点时间之间的时长,作为所述相邻两个目标节奏点中的首个目标节奏点对应的持续时间。
进一步的,在将与每个所述目标节奏点对应的起点时间、音量信息以及持续时间作为对所述音频信号的节奏点识别结果之后,还包括:
在与每个所述目标节奏点对应的起点时间处,根据所述目标节奏点的音量信息和持续时间,添加与所述目标节奏点匹配的音乐特效。
第二方面,本公开实施例还提供了一种节奏点识别装置,该装置包括:
备选节奏点确定模块,用于根据待识别的音频信号的频谱特性,在所述音频信号中确定至少一个备选节奏点,并获取与各所述备选节奏点对应的起点时间;
目标节奏点确定模块,用于将各所述备选节奏点按照对应的起点时间,映射至所述音频信号的趋势拟合包络信号中,并根据所述趋势拟合包络信号的波形特征,在各所述备选节奏点中确定目标节奏点;
音量信息和持续时间确定模块,用于根据所述音频信号的节拍信息,确定与各所述目标节奏点对应的音量信息,并根据所述音频信号的波动拟合包络信号以及所述音频信号的节拍信息,确定与各所述目标节奏点对应的持续时间;
节奏点识别结果确定模块,用于将与每个所述目标节奏点对应的起点时间、音量信息以及持续时间作为对所述音频信号的节奏点识别结果。
进一步的,所述备选节奏点确定模块,包括:
分组模块,用于将所述音频信号中的各个信号点进行分组处理,其中,每个分组中包括设定数量的相邻信号点,不同分组中包括的信号点相异或者部分重叠;
频域特征参数计算模块,用于根据每个分组中各信号点的信号频域特征参数,计算与各所述分组对应的分组频域特征参数;
备选节奏点筛选模块,用于根据与各分组对应的分组频域特征参数,以及预设的特征筛选条件,在各所述分组中筛选出目标分组,并根据目标分组对应的各信号点确定一个备选节奏点;
起点时间确定模块,用于将目标分组中各信号点对应的时间区间中,选择一个时间点作为与所述目标分组对应的备选节奏点的起点时间。
进一步的,所述备选节奏点筛选模块,包括:
分组集合确定模块,用于将连续设定数量的分组作为一个分组集合;
备选目标分组确定模块,用于当确定所述分组集合满足频域特征阈值条件时,将所述分组集合中的首个分组作为备选目标分组;
目标分组确定模块,用于从各所述备选目标分组中剔除满足相邻剔除条件的备选目标分组,将剩下的备选目标分组作为目标分组。
进一步的,所述目标节奏点确定模块,包括:
波峰点识别模块,用于根据所述趋势拟合包络信号的波形特征,识别所述趋势拟合包络信号中的波峰点;
目标节奏点筛选模块,用于将各所述备选节奏点按照对应的起点时间,映射至所述趋势拟合包络信号中,并将与各所述波峰点最近的备选节奏点作为目标节奏点。
进一步的,所述音量信息和持续时间确定模块,包括:
音量区间确定模块,用于根据所述目标节奏点对应的起点时间以及所述音频信号的节拍信息,确定所述目标节奏点匹配的音量区间;
音量信息计算模块,用于根据所述音量区间中各信号点的信号时域特征参数,计算与所述目标节奏点对应的音量信息。
进一步的,所述音量信息和持续时间确定模块,包括:
终点时间确定模块,用于将任意相邻两个目标节奏点按照对应的起点时间,映射至波动拟合包络信号中,并根据所述波动拟合包络信号的波形特征,确定与所述相邻两个目标节奏点匹配的信号点的起点时间;
持续时间计算模块,用于将所述相邻两个目标节奏点中的首个目标节奏点对应的起点时间,以及与所述相邻两个目标节奏点匹配的信号点的起点时间之间的时长,作为所述相邻两个目标节奏点中的首个目标节奏点对应的持续时间。
进一步的,所述节奏点识别装置,还包括:
音乐特效添加模块,用于在与每个所述目标节奏点对应的起点时间处,根据所述目标节奏点的音量信息和持续时间,添加与所述目标节奏点匹配的音乐特效。
第三方面,本公开实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本公开实施例所述的节奏点识别方法。
第四方面,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例所述的节奏点识别方法。
本公开实施例通过根据音频信号的频谱特性确定音频信号的至少一个备选节奏点,以及对应的起点时间,并根据音频信号的趋势拟合包络信号的波形特征从至少一个备选节奏点筛选目标节奏点,最后根据音频信号的波动拟合包络信号以及所述音频信号的节拍信息确定目标节奏点的音量信息和持续时间,确定目标节奏点的识别结果,解决了现有技术中人工标注节奏点的时间成本高效率低的问题,实现自动识别节奏点,而且对节奏点进行多次筛选,提高节奏点识别的准确率。
附图说明
图1a是本公开实施例一提供的一种节奏点识别方法的流程图;
图1b是本公开实施例一提供的一种音频信号的示意图;
图2a是本公开实施例二提供的一种节奏点识别方法的流程图;
图2b是本公开实施例二提供的一种音频信号的示意图;
图3是本公开实施例三提供的一种节奏点识别方法的流程图;
图4是本公开实施例四提供的一种节奏点识别装置的结构示意图;
图5是本公开实施例五提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分而非全部结构。
实施例一
图1a为本公开实施例一提供的一种节奏点识别方法的流程图,本实施例可适用于在一段音频信号中识别节奏点的情况,该方法可以由节奏点识别装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于电子设备中,例如典型的是计算机等。如图1a所示,该方法具体包括如下步骤:
S110,根据待识别的音频信号的频谱特性,在所述音频信号中确定至少一个备选节奏点,并获取与各所述备选节奏点对应的起点时间。
待识别的音频信号是指原始音频信号经过预处理生成的音频信号。一般来说,原始音频信号是指连续的时域信号,但由于计算机只能处理离散信号,需要对原始音频信号进行采样和量化,得到便于分析的离散数字信号。可以通过对原始音频信号按照设定频率进行采样,得到离散的时域信号,其中,设定频率为44.1kHz。也就是说,音频信号实际为经过采样的离散信号点形成的信号。
在本公开实施例中,频谱特性主要是指音频信号的频率、频域幅值和频域相位等参数变化的信息。
需要说明的是,时域幅值和频域中计算得到的幅值不同,时域信号中某一个信号点处的幅值是该信号点对应的时间点映射在频域信号中不同频率正弦成分的信号的叠加,其中,每个信号点对应的时域幅值实际是包括多个频率信号对应的幅值信息和相位信息的叠加,并非多个频率信号对应的幅值信息的简单相加。
音频信号是一种声波信号,节奏点可以用于表示声波信号的节奏特征。通常,节奏点用于表征音符,示例性的,将在音频信号中的距离音符起始的时间点最近的信号点作为节奏点。实际上,音符的节奏特征是持续一段时间,且具有设定音量值的音符,相应的,节奏点的分析结果包括节奏点的起点时间、持续时间和音量值。
其中,节奏点的起点时间可以是指该节奏点映射在音频信号中的开始时刻对应的时间点;持续时间可以是节奏点持续的时间长度,另外,起点时间也是该节奏点的持续时间的起点时间;音量信息可以是指节奏点的音强,用于表征该节奏点对应的声音强弱,实际上,一个音符的音强在持续时间内不是一个固定值,例如音强是不断衰减。此时,可以将音频信号中在持续时间内的信号点的时域幅值均值作为音强。
备选节奏点可以是指从音频信号中粗筛出来的节奏点。
根据待识别的音频信号的频谱特性,在所述音频信号中确定至少一个备选节奏点,具体可以是对音频信号依次进行差分处理、傅里叶变换和差分处理,并基于短时能量法确定备选节奏点以及对应的起点时间。
此外,本公开实施例还可以通过其他方法确定备选节奏点,对此不作具体限制。
S120,将各所述备选节奏点按照对应的起点时间,映射至所述音频信号的趋势拟合包络信号中,并根据所述趋势拟合包络信号的波形特征,在各所述备选节奏点中确定目标节奏点。
趋势拟合包络信号可以是指对音频信号在时域中幅值特性进行拟合的信号,用于表征音频信号的时域幅值变化趋势。具体的,趋势拟合包络信号可以通过希尔伯特(Hilbert)变换得到。趋势拟合包络信号的波形特征可以是指音频信号的时域幅值变化趋势特征,具体可以包括趋势拟合包络信号的波峰和波谷,对应音频信号中时域幅值波峰和时域幅值波谷。根据趋势拟合包络信号的波形特征对备选节奏点进行筛选,由于节奏点是用于表征音符,可以认为每个波峰实际就是一个音符,具体可以根据趋势拟合包络信号的波峰和波谷确定筛选目标节奏点,例如,在每个波峰与该波峰之前的相邻波谷之间的备选节奏点中,选择距离该波峰最近的备选节奏点作为目标节奏点,从而每个波峰确定一个目标节奏点。
可选的,所述将各所述备选节奏点按照对应的起点时间,映射至所述音频信号的趋势拟合包络信号中,根据所述趋势拟合包络信号的波形特征,在各所述备选节奏点中确定目标节奏点,可以包括:根据所述趋势拟合包络信号的波形特征,识别所述趋势拟合包络信号中的波峰点;将各所述备选节奏点按照对应的起点时间,映射至所述趋势拟合包络信号中,并将与各所述波峰点最近的备选节奏点作为目标节奏点。
根据趋势拟合包络信号的波形特征,在趋势拟合包络信号中识别波峰点,具体的,若一个信号点之前和之后的信号点的时域幅值均小于该信号点,该信号点即为波峰点。将各备选节奏点按照对应的起点时间,映射至所述趋势拟合包络信号中,可以确定各备选节奏点的起点时间与波峰点的时间之间的时间关系。一般来说,每个波峰可认为是一个音符,由此,根据每个波峰点从各备选节奏点中筛选一个匹配的备选节奏点作为目标节奏点,具体是选择在时间上与波峰点最近的备选节奏点作为该波峰点匹配的目标节奏点。
通过根据趋势拟合包络信号的波形特征对备选节奏点进行筛选,从中确定目标节奏点,以对节奏点进一步筛选,实现提高节奏点识别的准确性。
S130,根据所述音频信号的节拍信息,确定与各所述目标节奏点对应的音量信息,并根据所述音频信号的波动拟合包络信号以及所述音频信号的节拍信息,确定与各所述目标节奏点对应的持续时间。
在音频信号中,节拍用于表示强音和弱音规律性变化的周期,节拍信息可以是指音乐中强音和弱音有规律地和周期性地循环反复的特征信息,具体包括每分钟节拍数目(beat per minute,bpm)。其中,音符一般以一拍为单位,根据音频信号中的每分钟节拍数目可以确定一拍对应的时长,映射到音频信号中,可以确定一个节奏点(音符)对应的持续时间,以及对应包括的信号点,进一步根据各信号点的时域幅值,确定该节奏点的音量信息。
根据节拍信息可以确定节奏点对应的音符在音频信号中持续的信号区间,其中,该信号区间是离散信号点形成的数组区间。从而根据信号区间中各信号点的时域幅值,确定与节奏点对应的音量信息。示例性的,将信号区间中各信号点的时域幅值的均值作为与节奏点对应的音量值。
波动拟合包络信号可以是指对音频信号在时域中的幅值特性进行拟合的信号,而且,波动拟合包络信号的波形特征也是指音频信号的时域幅值变化趋势特征。其中,波动拟合包络信号更加波动,趋势拟合包络信号更加平滑,趋势拟合包络信号可以是在波动拟合包络信号的基础上经过平滑操作处理完成。
在一个具体的例子中,如图1b所示,待识别的音频信号101的趋势拟合包络信号102比波动拟合包络信号103更加平缓。
根据节拍信息可以确定节奏点对应的音符在音频信号中持续的信号区间,并映射到波动拟合包络信号中得到与节拍信息对应的信号区间,根据波动拟合包络信号的波形特征,在上述确定的与节拍信息对应信号区间中确定该音符的结束信号点,进而确定结束信号点对应的起点时间作为节奏点的终点时间,并根据节奏点的起点时间,可以确定与节奏点对应的持续时间。其中,该音符的结束信号点可以是与节拍信息对应的信号区间中任意一个波谷点。
可选的,所述根据所述音频信号的节拍信息,确定与各所述目标节奏点对应的音量信息,可以包括:根据所述目标节奏点对应的起点时间以及所述音频信号的节拍信息,确定所述目标节奏点匹配的音量区间;根据所述音量区间中各信号点的信号时域特征参数,计算与所述目标节奏点对应的音量信息。
具体的,根据音频信号的节拍信息,确定与各目标节奏点对应的音量信息,具体可以是,将目标节奏点的起点时间为起始端点,同时将音频信号的bpm作为区间长度,确定目标节奏点的音量区间。并根据音频信号在音量区间中各信号点的时域幅值确定该目标节奏点的音量信息。示例性的,可以将音频信号在音量区间中各信号点的时域幅值的均值作为该目标节奏点的音量值。此外,还可以是计算各信号点的时域幅值的平方,将最大值作为该目标节奏点的音量值,对此,本公开实施例不做具体限制。
其中,bpm可以通过复域谱差函数、光谱差函数和节拍强调函数等中至少一种进行计算,具体的,可以采用多种函数,并从bpm的计算结果中进行筛选,确定需要的bpm。此外,还可以采用其他方法计算bpm,对此,本公开实施例不做具体限制。
通过音频信号的节拍信息确定目标节奏点匹配的音量区间,可以准确确定目标节奏点的音强信息。
可选的,所述根据所述音频信号的波动拟合包络信号以及所述音频信号的节拍信息,确定与各所述目标节奏点对应的持续时间,包括:将任意相邻两个目标节奏点按照对应的起点时间,映射至波动拟合包络信号中,并根据所述波动拟合包络信号的波形特征,确定与所述相邻两个目标节奏点匹配的信号点的起点时间;将所述相邻两个目标节奏点中的首个目标节奏点对应的起点时间,以及与所述相邻两个目标节奏点匹配的信号点的起点时间之间的时长,作为所述相邻两个目标节奏点中的首个目标节奏点对应的持续时间。
首个目标节奏点是指,两个目标节奏点中起点时间在前的目标节奏点。任意一个节奏点的持续时间小于该节奏点的起点时间与相邻后一个节奏点的起点时间确定的时长。一般来说,一个音符结束时,其能量最小,此时反映在音频信号中即幅值最小,可以将相邻两个目标节奏点之间的波谷点作为两个目标节奏点匹配的信号点,并将波谷点的起点时间(实际是波谷点对应的时间点)与相邻两个目标节奏点中首个目目标节奏点的起点时间之间的时长作为该首个目标节奏点对应的持续时间。而且音频信号的波动拟合包络信号比趋势拟合包络信号更符合音频信号的幅值变化情况,从而,可以根据音频信号的波动拟合包络信号确定相邻两个目标节奏点之间的波谷点,具体是,若一个信号点之前和之后的信号点的幅值均大于该信号点,该信号点即为波谷点。
通过波动拟合包络信号的波形特征确定目标节奏点的持续时间,可以准确找到相邻两个目标节奏点中首个目标节奏点对应的终点时间,从而准确确定首个目标节奏点对应的持续时间。
S140,将与每个所述目标节奏点对应的起点时间、音量信息以及持续时间作为对所述音频信号的节奏点识别结果。
节奏是由各种不同时值的音符组合在一起形成的多样化的形态,和音符的长短、强弱有着密切关系。为了表示节奏的特征,每个节奏点识别结果具体包括目标节奏点对应的起点时间、音量信息以及持续时间。
本公开实施例通过根据音频信号的频谱特性确定音频信号的至少一个备选节奏点,以及对应的起点时间,并根据音频信号的趋势拟合包络信号的波形特征从至少一个备选节奏点筛选目标节奏点,最后根据音频信号的波动拟合包络信号以及所述音频信号的节拍信息确定目标节奏点的音量信息和持续时间,确定目标节奏点的识别结果,解决了现有技术中人工标注节奏点的时间成本高效率低的问题,实现自动识别节奏点,而且对节奏点进行多次筛选,提高节奏点识别的准确率。
在上述实施例的基础上,在将与每个所述目标节奏点对应的起点时间、音量信息以及持续时间作为对所述音频信号的节奏点识别结果之后,还可以包括:在与每个所述目标节奏点对应的起点时间处,根据所述目标节奏点的音量信息和持续时间,添加与所述目标节奏点匹配的音乐特效。
在得到音频信号的节奏点识别结果之后,针对每个目标节奏点,在起点时间处,开始添加音乐特效,其中,音乐特效的持续时间与该目标节奏点的持续时间相同,音乐特效的音量信息与该目标节奏点的音量信息匹配,例如,该目标节奏点的音量由35分贝逐渐衰减,添加的音乐特效的音量相应由35分贝逐渐衰减。此外,每个目标节奏点对应的音乐特效可以相同也可以不同。
通过在识别音频信号中的节奏点之后,添加与目标节奏点匹配的音乐特效,为音频信号增加特殊效果,提高音频信号的丰富度。
实施例二
图2a为本公开实施例二提供的一种节奏点识别方法的流程图。本实施例以上述实施例中各个可选方案为基础进行具体化。在本实施例中,将根据待识别的音频信号的频谱特性,在所述音频信号中确定至少一个备选节奏点,并获取与各所述备选节奏点对应的起点时间,具体化为:将所述音频信号中的各个信号点进行分组处理,其中,每个分组中包括设定数量的相邻信号点,不同分组中包括的信号点相异或者部分重叠;根据每个分组中各信号点的信号频域特征参数,计算与各所述分组对应的分组频域特征参数;根据与各分组对应的分组频域特征参数,以及预设的特征筛选条件,在各所述分组中筛选出目标分组,并根据目标分组对应的各信号点确定一个备选节奏点;将目标分组中各信号点对应的时间区间中,选择一个时间点作为与所述目标分组对应的备选节奏点的起点时间。
相应的,本实施例的方法可以包括:
S210,将音频信号中的各个信号点进行分组处理,其中,每个分组中包括设定数量的相邻信号点,不同分组中包括的信号点相异或者部分重叠。
音频信号为离散信号,设定数量可以为1024,分组处理可以是每隔511个信号点连续取1024个相邻信号点作为一组。在一个具体的例子是,将音频信号包括的离散信号按照时间顺序依次编号,第一个信号点为0,第二个信号点为1,以此类推,相应的,第1组为[0,1024),第2组为[512,512+1024),第3组为[1024,1024+1024),以此类推,其中,每个数组中对应的数值为每个信号点对应的时域幅值。
本实施例中的音频信号、频谱特性、备选节奏点、起点时间、趋势拟合包络信号、节拍信息、音量信息、波动拟合包络信号和节奏点识别结果等均可以参考上述实施例中的描述。
S220,根据每个分组中各信号点的信号频域特征参数,计算与各所述分组对应的分组频域特征参数。
信号频域特征参数可以是指音频信号由时域信号转换为频域信号时得到的频域相位和频域幅值。分组频域特征参数可以是指每组对应的节奏点特征值,节奏点特征值用于识别节奏点。
一般来说,傅里叶变换可以实现音频信号由时域信号到频域信号的转换,为了避免将音频信号中不同频率的信号混杂在一起难以分辨,提高音频信号的分辨率,对音频信号先进行加窗,即前述的分组处理和窗函数处理,实现将无限长的时间片段截断为多个短片段,再针对各组进行傅里叶变换。
具体是:在对音频信号中的各个信号点进行分组处理之后,需要以中间点为基准将每个信号点对应的数据进行前后对调,并乘以预设的窗函数,再进行傅里叶变换。如前例,在第1组[0,1024),以512为基准,将[0,512)和[512,1024)中各信号点对应的时域幅值进行对调,并乘以汉宁窗(hann)系数,得到傅里叶变换前的各组数据,在对每组分别进行傅里叶变换,得到每组中各信号点对应的频域相位和频域幅值作为该组中各信号点的信号频域特征参数。
根据每个分组中各信号点的信号频域特征参数计算与各分组对应的分组频域特征参数,可以是采用起始点(onset)检测方法进行计算。可以根据每个分组中各信号点的信号频域特征参数,并基于如下公式计算每个分组中各信号点的节奏点特征值:
Onset[i]=2×D[i]×sin((P[i]-2×P[i-1]+P[i-2])×0.5)
Onset[i]=Onset[i]×Onset[i]
其中,i表示第i个信号点,Onset[i]为第i个信号点特征值,D[i]为第i个信号点的幅值,P[i]为第i个信号点的相位。若i-1小于0,P[i-1]为0;若i-2小于0,P[i-2]为0。每组对应的分组频域特征参数为该组中各信号点的节奏点特征值之和。
此外,可以对各组分组频域特征参数进行归一化处理和窗口平滑处理,并根据处理后的结果修正各分组频域特征参数。其中,归一化处理具体是,各组分组频域特征参数除以各组分组频域特征参数中最大的分组频域特征参数;窗口平滑处理可以是无限脉冲响应(Infinite Impulse Response,IIR)平滑处理,其中的窗口为5。
S230,根据与各分组对应的分组频域特征参数,以及预设的特征筛选条件,在各所述分组中筛选出目标分组,并根据目标分组对应的各信号点确定一个备选节奏点。
具体的,特征筛选条件可以包括至少一个筛选步骤,用于从多个分组中确定目标分组,同时每个分组确定一个备选节奏点,实现音频信号中节奏点初步识别。示例性的,特征筛选条件可以是将超过设定阈值的分组频域特征参数对应的分组作为目标分组。此外,特征筛选条件还可以是其他条件,对此,本公开实施例不作具体限制。
可选的,根据与各分组对应的分组频域特征参数,以及预设的特征筛选条件,在各所述分组中筛选出目标分组,可以包括:将连续设定数量的分组作为一个分组集合;当确定所述分组集合满足频域特征阈值条件时,将所述分组集合中的首个分组作为备选目标分组;从各所述备选目标分组中剔除满足相邻剔除条件的备选目标分组,将剩下的备选目标分组作为目标分组。
具体的,频域特征阈值条件可以是限定分组集合中各分组频域特征参数大小关系的条件。例如,一个分组集合包括5个分组,按照时间顺序依次编号,若满足如下不等确定分组集合满足频域特征阈值条件:
其中,该分组集合包括由i到i+4共五个分组,Onsets_ma[i]表示第i个分组的分组频域特征参数。当满足上述不等式时,该分组集合满足频域特征阈值条件,同时,将首个分组即Onsets_ma[i]作为备选目标分组。
此外还可以在确定分组集合的时候,对各分组进行修正,可选的,在连续设定数量的分组作为一个分组集合,还可以包括:将低于设定阈值的分组频域特征参数修正为0。通过对个分组进行修正,初步筛选分组,并在筛选分组后进一步根据频域特征阈值条件确定备选目标分组,减少对备选目标分组的进行判断的数据量,从而提高筛选备选目标分组的效率。
相邻剔除条件可以是指限定备选目标分组的之间的相邻关系的条件。一般来说,如果两个节奏点的间隔时间极短,这两个节奏点在时间上是相邻的,通常,出现相邻的两个节奏点是由于噪音,而并非是真正的节奏点,而且一个分组可以确定一个节奏点,从而,可以将相邻的分组从备选目标分组中剔除,进一步实现对节奏点的识别。其中,分组相邻是指两个及以上的分组中首个信号点的起点时间在时间上是相邻的,或者说两个及以上的分组中首个信号点的起点时间之间不存在其他分组的首个信号点的起点时间。
具体是,根据各备选目标分组中首个信号点的起点时间,确定起点时间相邻的至少两个备选目标分组满足相邻剔除条件,并将所述至少两个备选目标分组剔除,将剩下的备选目标分组作为目标分组。
在一个具体的例子中,第30个备选目标分组中首个信号点的起点时间,与第31个备选目标分组中首个信号点的起点时间之间的区间中,不存在其他分组中首个信号点的起点时间,确定第30个备选目标分组和第31个备选目标分组满足相邻剔除条件。若第32个备选目标分组和第31个备选目标分组也满足相邻剔除条件,将第30个备选目标分组、第31个备选目标分组和第32个备选目标分组均剔除。需要说明的是,其他分组并不是局限于备选目标分组,其他分组是指在前述进行分组时,形成的分组。
也就是说,经过相邻剔除条件筛选后的目标分组之间不存在相邻情况。
在一个具体的例子中,如图2b所示,根据趋势拟合包络信号202确定音频信号中的信号点201为目标节奏点。
通过对分组分别进行阈值筛选和相邻筛选的两步筛选,最终确定目标分组,实现对节奏点的两步筛选,提高节奏点识别的准确性。
S240,将目标分组中各信号点对应的时间区间中,选择一个时间点作为与所述目标分组对应的备选节奏点的起点时间。
时间区间可以是指目标分组中首个信号点的起点时间到目标分组中终点信号点的起点时间之间形成的区间。从该区间中选择一个时间点作为该目标分组对应的备选节奏点的起点时间,可选的,可以将首个信号点的时间点作为该起点时间的起点时间。
S250,将各所述备选节奏点按照对应的起点时间,映射至所述音频信号的趋势拟合包络信号中,并根据所述趋势拟合包络信号的波形特征,在各所述备选节奏点中确定目标节奏点。
S260,根据所述音频信号的节拍信息,确定与各所述目标节奏点对应的音量信息,并根据所述音频信号的波动拟合包络信号以及所述音频信号的节拍信息,确定与各所述目标节奏点对应的持续时间。
S270,将与每个所述目标节奏点对应的起点时间、音量信息以及持续时间作为对所述音频信号的节奏点识别结果。
本公开实施例通过对音频信号进行分组处理,以及获取各分组中各信号点的信号频域特征参数,由此确定各分组对应的分组频域特征参数,并根据分组频域特征参数对各分组进行筛选,确定目标分组,对应每个目标分组确定一个备选节奏点,实现在确定备选节奏点之前对分组进行筛选,减少备选节奏点的数量,提高节奏点识别的效率和准确性。
实施例三
图3为本公开实施例三提供的一种节奏点识别方法的流程图。本实施例以上述实施例中各个可选方案为基础进行具体化。
相应的,本实施例的方法可以包括:
S301,将所述音频信号中的各个信号点进行分组处理,其中,每个分组中包括设定数量的相邻信号点,不同分组中包括的信号点相异或者部分重叠。
S302,根据每个分组中各信号点的信号频域特征参数,计算与各所述分组对应的分组频域特征参数。
S303,将连续设定数量的分组作为一个分组集合。
S304,当确定所述分组集合满足频域特征阈值条件时,将所述分组集合中的首个分组作为备选目标分组。
S305,从各所述备选目标分组中剔除满足相邻剔除条件的备选目标分组,将剩下的备选目标分组作为目标分组。
S306,根据目标分组对应的各信号点确定一个备选节奏点。
S307,将目标分组中各信号点对应的时间区间中,选择一个时间点作为与所述目标分组对应的备选节奏点的起点时间。
S308,将各所述备选节奏点按照对应的起点时间,映射至所述音频信号的趋势拟合包络信号中,并根据所述趋势拟合包络信号的波形特征,识别所述趋势拟合包络信号中的波峰点。
S309,将各所述备选节奏点按照对应的起点时间,映射至所述趋势拟合包络信号中,并将与各所述波峰点最近的备选节奏点作为目标节奏点。
S310,根据所述音频信号的节拍信息,确定与各所述目标节奏点对应的音量信息,并根据所述音频信号的波动拟合包络信号以及所述音频信号的节拍信息,确定与各所述目标节奏点对应的持续时间。
S311,将与每个所述目标节奏点对应的起点时间、音量信息以及持续时间作为对所述音频信号的节奏点识别结果。
S312,在与每个所述目标节奏点对应的起点时间处,根据所述目标节奏点的音量信息和持续时间,添加与所述目标节奏点匹配的音乐特效。
实施例四
图4为本公开实施例提供的一种节奏点识别装置的结构示意图,本实施例可适用于一段音频信号中识别节奏点的情况。该装置可以采用软件和/或硬件的方式实现,该装置可以配置于电子设备中。如图4所示,该装置可以包括:备选节奏点确定模块410、目标节奏点确定模块420、音量信息和持续时间确定模块430和节奏点识别结果确定模块440。
备选节奏点确定模块410,用于根据待识别的音频信号的频谱特性,在所述音频信号中确定至少一个备选节奏点,并获取与各所述备选节奏点对应的起点时间;
目标节奏点确定模块420,用于将各所述备选节奏点按照对应的起点时间,映射至所述音频信号的趋势拟合包络信号中,并根据所述趋势拟合包络信号的波形特征,在各所述备选节奏点中确定目标节奏点;
音量信息和持续时间确定模块430,用于根据所述音频信号的节拍信息,确定与各所述目标节奏点对应的音量信息,并根据所述音频信号的波动拟合包络信号以及所述音频信号的节拍信息,确定与各所述目标节奏点对应的持续时间;
节奏点识别结果确定模块440,用于将与每个所述目标节奏点对应的起点时间、音量信息以及持续时间作为对所述音频信号的节奏点识别结果。
本公开实施例通过根据音频信号的频谱特性确定音频信号的至少一个备选节奏点,以及对应的起点时间,并根据音频信号的趋势拟合包络信号的波形特征从至少一个备选节奏点筛选目标节奏点,最后根据音频信号的波动拟合包络信号以及所述音频信号的节拍信息确定目标节奏点的音量信息和持续时间,确定目标节奏点的识别结果,解决了现有技术中人工标注节奏点的时间成本高效率低的问题,实现自动识别节奏点,而且对节奏点进行多次筛选,提高节奏点识别的准确率。
进一步的,所述备选节奏点确定模块410,包括:分组模块,用于将所述音频信号中的各个信号点进行分组处理,其中,每个分组中包括设定数量的相邻信号点,不同分组中包括的信号点相异或者部分重叠;频域特征参数计算模块,用于根据每个分组中各信号点的信号频域特征参数,计算与各所述分组对应的分组频域特征参数;备选节奏点筛选模块,用于根据与各分组对应的分组频域特征参数,以及预设的特征筛选条件,在各所述分组中筛选出目标分组,并根据目标分组对应的各信号点确定一个备选节奏点;起点时间确定模块,用于将目标分组中各信号点对应的时间区间中,选择一个时间点作为与所述目标分组对应的备选节奏点的起点时间。
进一步的,所述备选节奏点筛选模块,包括:分组集合确定模块,用于将连续设定数量的分组作为一个分组集合;备选目标分组确定模块,用于当确定所述分组集合满足频域特征阈值条件时,将所述分组集合中的首个分组作为备选目标分组;目标分组确定模块,用于从各所述备选目标分组中剔除满足相邻剔除条件的备选目标分组,将剩下的备选目标分组作为目标分组。
进一步的,所述目标节奏点确定模块420,包括:波峰点识别模块,用于根据所述趋势拟合包络信号的波形特征,识别所述趋势拟合包络信号中的波峰点;目标节奏点筛选模块,用于将各所述备选节奏点按照对应的起点时间,映射至所述趋势拟合包络信号中,并将与各所述波峰点最近的备选节奏点作为目标节奏点。
进一步的,所述音量信息和持续时间确定模块430,包括:音量区间确定模块,用于根据所述目标节奏点对应的起点时间以及所述音频信号的节拍信息,确定所述目标节奏点匹配的音量区间;音量信息计算模块,用于根据所述音量区间中各信号点的信号时域特征参数,计算与所述目标节奏点对应的音量信息。
进一步的,所述音量信息和持续时间确定模块430,包括:终点时间确定模块,用于将任意相邻两个目标节奏点按照对应的起点时间,映射至波动拟合包络信号中,并根据所述波动拟合包络信号的波形特征,确定与所述相邻两个目标节奏点匹配的信号点的起点时间;持续时间计算模块,用于将所述相邻两个目标节奏点中的首个目标节奏点对应的起点时间,以及与所述相邻两个目标节奏点匹配的信号点的起点时间之间的时长,作为所述相邻两个目标节奏点中的首个目标节奏点对应的持续时间。
进一步的,所述节奏点识别装置,还包括:音乐特效添加模块,用于在与每个所述目标节奏点对应的起点时间处,根据所述目标节奏点的音量信息和持续时间,添加与所述目标节奏点匹配的音乐特效。
本公开实施例提供的节奏点识别装置,与实施例一提供的节奏点识别方法属于同一发明构思,未在本公开实施例中详尽描述的技术细节可参见实施例一,并且本公开实施例与实施例一具有相同的有益效果。
实施例五
本公开实施例提供了一种电子设备,下面参考图5,其示出了适于用来实现本公开实施例的电子设备(例如客户端或服务器端)500的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)、便携式多媒体播放器(PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开实施例的方法中限定的上述功能。
实施例六
本公开实施例还提供了一种计算机可读存储介质,计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、射频(RF)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:根据待识别的音频信号的频谱特性,在所述音频信号中确定至少一个备选节奏点,并获取与各所述备选节奏点对应的起点时间;将各所述备选节奏点按照对应的起点时间,映射至所述音频信号的趋势拟合包络信号中,并根据所述趋势拟合包络信号的波形特征,在各所述备选节奏点中确定目标节奏点;根据所述音频信号的节拍信息,确定与各所述目标节奏点对应的音量信息,并根据所述音频信号的波动拟合包络信号以及所述音频信号的节拍信息,确定与各所述目标节奏点对应的持续时间;将与每个所述目标节奏点对应的起点时间、音量信息以及持续时间作为对所述音频信号的节奏点识别结果。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,备选节奏点确定模块还可以被描述为“根据待识别的音频信号的频谱特性,在所述音频信号中确定至少一个备选节奏点,并获取与各所述备选节奏点对应的起点时间的模块”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (16)
1.一种节奏点识别方法,其特征在于,包括:
根据待识别的音频信号的频谱特性,在所述音频信号中确定至少一个备选节奏点,并获取与各所述备选节奏点对应的起点时间;
将各所述备选节奏点按照对应的起点时间,映射至所述音频信号的趋势拟合包络信号中,并根据所述趋势拟合包络信号的波形特征,在各所述备选节奏点中确定目标节奏点;
根据所述音频信号的节拍信息,确定与各所述目标节奏点对应的音量信息,并根据所述音频信号的波动拟合包络信号以及所述音频信号的节拍信息,确定与各所述目标节奏点对应的持续时间;
将与每个所述目标节奏点对应的起点时间、音量信息以及持续时间作为对所述音频信号的节奏点识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据待识别的音频信号的频谱特性,在所述音频信号中确定至少一个备选节奏点,并获取与各所述备选节奏点对应的起点时间,包括:
将所述音频信号中的各个信号点进行分组处理,其中,每个分组中包括设定数量的相邻信号点,不同分组中包括的信号点相异或者部分重叠;
根据每个分组中各信号点的信号频域特征参数,计算与各所述分组对应的分组频域特征参数;
根据与各分组对应的分组频域特征参数,以及预设的特征筛选条件,在各所述分组中筛选出目标分组,并根据目标分组对应的各信号点确定一个备选节奏点;
将目标分组中各信号点对应的时间区间中,选择一个时间点作为与所述目标分组对应的备选节奏点的起点时间。
3.根据权利要求2所述的方法,其特征在于,所述根据与各分组对应的分组频域特征参数,以及预设的特征筛选条件,在各所述分组中筛选出目标分组,包括:
将连续设定数量的分组作为一个分组集合;
当确定所述分组集合满足频域特征阈值条件时,将所述分组集合中的首个分组作为备选目标分组;
从各所述备选目标分组中剔除满足相邻剔除条件的备选目标分组,将剩下的备选目标分组作为目标分组。
4.根据权利要求1所述的方法,其特征在于,所述将各所述备选节奏点按照对应的起点时间,映射至所述音频信号的趋势拟合包络信号中,并根据所述趋势拟合包络信号的波形特征,在各所述备选节奏点中确定目标节奏点,包括:
根据所述趋势拟合包络信号的波形特征,识别所述趋势拟合包络信号中的波峰点;
将各所述备选节奏点按照对应的起点时间,映射至所述趋势拟合包络信号中,并将与各所述波峰点最近的备选节奏点作为目标节奏点。
5.根据权利要求1所述的方法,其特征在于,所述根据所述音频信号的节拍信息,确定与各所述目标节奏点对应的音量信息,包括:
根据所述目标节奏点对应的起点时间以及所述音频信号的节拍信息,确定所述目标节奏点匹配的音量区间;
根据所述音量区间中各信号点的信号时域特征参数,计算与所述目标节奏点对应的音量信息。
6.根据权利要求1所述的方法,其特征在于,所述根据所述音频信号的波动拟合包络信号以及所述音频信号的节拍信息,确定与各所述目标节奏点对应的持续时间,包括:
将任意相邻两个目标节奏点按照对应的起点时间,映射至波动拟合包络信号中,并根据所述波动拟合包络信号的波形特征,确定与所述相邻两个目标节奏点匹配的信号点的起点时间;
将所述相邻两个目标节奏点中的首个目标节奏点对应的起点时间,以及与所述相邻两个目标节奏点匹配的信号点的起点时间之间的时长,作为所述相邻两个目标节奏点中的首个目标节奏点对应的持续时间。
7.根据权利要求1-6任一项所述的方法,其特征在于,在将与每个所述目标节奏点对应的起点时间、音量信息以及持续时间作为对所述音频信号的节奏点识别结果之后,还包括:
在与每个所述目标节奏点对应的起点时间处,根据所述目标节奏点的音量信息和持续时间,添加与所述目标节奏点匹配的音乐特效。
8.一种节奏点识别装置,其特征在于,包括:
备选节奏点确定模块,用于根据待识别的音频信号的频谱特性,在所述音频信号中确定至少一个备选节奏点,并获取与各所述备选节奏点对应的起点时间;
目标节奏点确定模块,用于将各所述备选节奏点按照对应的起点时间,映射至所述音频信号的趋势拟合包络信号中,并根据所述趋势拟合包络信号的波形特征,在各所述备选节奏点中确定目标节奏点;
音量信息和持续时间确定模块,用于根据所述音频信号的节拍信息,确定与各所述目标节奏点对应的音量信息,并根据所述音频信号的波动拟合包络信号以及所述音频信号的节拍信息,确定与各所述目标节奏点对应的持续时间;
节奏点识别结果确定模块,用于将与每个所述目标节奏点对应的起点时间、音量信息以及持续时间作为对所述音频信号的节奏点识别结果。
9.根据权利要求8所述的装置,其特征在于,所述备选节奏点确定模块,包括:
分组模块,用于将所述音频信号中的各个信号点进行分组处理,其中,每个分组中包括设定数量的相邻信号点,不同分组中包括的信号点相异或者部分重叠;
频域特征参数计算模块,用于根据每个分组中各信号点的信号频域特征参数,计算与各所述分组对应的分组频域特征参数;
备选节奏点筛选模块,用于根据与各分组对应的分组频域特征参数,以及预设的特征筛选条件,在各所述分组中筛选出目标分组,并根据目标分组对应的各信号点确定一个备选节奏点;
起点时间确定模块,用于将目标分组中各信号点对应的时间区间中,选择一个时间点作为与所述目标分组对应的备选节奏点的起点时间。
10.根据权利要求9所述的装置,其特征在于,所述备选节奏点筛选模块,包括:
分组集合确定模块,用于将连续设定数量的分组作为一个分组集合;
备选目标分组确定模块,用于当确定所述分组集合满足频域特征阈值条件时,将所述分组集合中的首个分组作为备选目标分组;
目标分组确定模块,用于从各所述备选目标分组中剔除满足相邻剔除条件的备选目标分组,将剩下的备选目标分组作为目标分组。
11.根据权利要求8所述的装置,其特征在于,所述目标节奏点确定模块,包括:
波峰点识别模块,用于根据所述趋势拟合包络信号的波形特征,识别所述趋势拟合包络信号中的波峰点;
目标节奏点筛选模块,用于将各所述备选节奏点按照对应的起点时间,映射至所述趋势拟合包络信号中,并将与各所述波峰点最近的备选节奏点作为目标节奏点。
12.根据权利要求8所述的装置,其特征在于,所述音量信息和持续时间确定模块,包括:
音量区间确定模块,用于根据所述目标节奏点对应的起点时间以及所述音频信号的节拍信息,确定所述目标节奏点匹配的音量区间;
音量信息计算模块,用于根据所述音量区间中各信号点的信号时域特征参数,计算与所述目标节奏点对应的音量信息。
13.根据权利要求8所述的装置,其特征在于,所述音量信息和持续时间确定模块,包括:
终点时间确定模块,用于将任意相邻两个目标节奏点按照对应的起点时间,映射至波动拟合包络信号中,并根据所述波动拟合包络信号的波形特征,确定与所述相邻两个目标节奏点匹配的信号点的起点时间;
持续时间计算模块,用于将所述相邻两个目标节奏点中的首个目标节奏点对应的起点时间,以及与所述相邻两个目标节奏点匹配的信号点的起点时间之间的时长,作为所述相邻两个目标节奏点中的首个目标节奏点对应的持续时间。
14.根据权利要求8-13任一项所述的装置,其特征在于,还包括:
音乐特效添加模块,用于在与每个所述目标节奏点对应的起点时间处,根据所述目标节奏点的音量信息和持续时间,添加与所述目标节奏点匹配的音乐特效。
15.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任一所述的节奏点识别方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一所述的节奏点识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811519398.4A CN109670074B (zh) | 2018-12-12 | 2018-12-12 | 一种节奏点识别方法、装置、电子设备及存储介质 |
PCT/CN2019/099640 WO2020119150A1 (zh) | 2018-12-12 | 2019-08-07 | 节奏点识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811519398.4A CN109670074B (zh) | 2018-12-12 | 2018-12-12 | 一种节奏点识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109670074A true CN109670074A (zh) | 2019-04-23 |
CN109670074B CN109670074B (zh) | 2020-05-15 |
Family
ID=66144273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811519398.4A Active CN109670074B (zh) | 2018-12-12 | 2018-12-12 | 一种节奏点识别方法、装置、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109670074B (zh) |
WO (1) | WO2020119150A1 (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110265057A (zh) * | 2019-07-10 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 生成多媒体的方法及装置、电子设备、存储介质 |
CN110392045A (zh) * | 2019-06-28 | 2019-10-29 | 上海元笛软件有限公司 | 音频播放方法、装置、计算机设备和存储介质 |
CN110390943A (zh) * | 2019-06-28 | 2019-10-29 | 上海元笛软件有限公司 | 音频合成方法、装置、计算机设备和存储介质 |
CN110415669A (zh) * | 2019-07-19 | 2019-11-05 | 北京字节跳动网络技术有限公司 | 一种节奏器的实现方法、装置、电子设备及存储介质 |
CN110519638A (zh) * | 2019-09-06 | 2019-11-29 | Oppo广东移动通信有限公司 | 处理方法、处理装置、电子装置和存储介质 |
CN110753238A (zh) * | 2019-10-29 | 2020-02-04 | 北京字节跳动网络技术有限公司 | 视频处理方法、装置、终端及存储介质 |
CN111128232A (zh) * | 2019-12-26 | 2020-05-08 | 广州酷狗计算机科技有限公司 | 音乐的小节信息确定方法、装置、存储介质及设备 |
WO2020119150A1 (zh) * | 2018-12-12 | 2020-06-18 | 北京字节跳动网络技术有限公司 | 节奏点识别方法、装置、电子设备及存储介质 |
CN111429942A (zh) * | 2020-03-19 | 2020-07-17 | 北京字节跳动网络技术有限公司 | 一种音频数据处理方法、装置、电子设备及存储介质 |
CN111785237A (zh) * | 2020-06-09 | 2020-10-16 | Oppo广东移动通信有限公司 | 音频节奏确定方法、装置、存储介质和电子设备 |
CN112435687A (zh) * | 2020-11-25 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 一种音频检测方法、装置、计算机设备和可读存储介质 |
CN112466267A (zh) * | 2020-11-24 | 2021-03-09 | 瑞声新能源发展(常州)有限公司科教城分公司 | 振动生成方法、振动控制方法及其相关设备 |
WO2021120602A1 (zh) * | 2019-12-20 | 2021-06-24 | 网易(杭州)网络有限公司 | 节奏点检测方法、装置及电子设备 |
CN113053339A (zh) * | 2021-03-10 | 2021-06-29 | 百果园技术(新加坡)有限公司 | 节奏调整方法、装置、设备和存储介质 |
CN113096689A (zh) * | 2021-04-02 | 2021-07-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌曲演唱的评价方法、设备及介质 |
CN113613061A (zh) * | 2021-07-06 | 2021-11-05 | 北京达佳互联信息技术有限公司 | 一种卡点模板生成方法、装置、设备及存储介质 |
CN113643717A (zh) * | 2021-07-07 | 2021-11-12 | 深圳市联洲国际技术有限公司 | 一种音乐节奏检测方法、装置、设备及存储介质 |
CN114845145A (zh) * | 2021-01-30 | 2022-08-02 | 华为技术有限公司 | 动作提示图标序列生成方法、电子设备和可读存储介质 |
CN115240619A (zh) * | 2022-06-23 | 2022-10-25 | 深圳市智岩科技有限公司 | 音频节奏检测方法、智能灯具、装置、电子设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3674950B2 (ja) * | 2002-03-07 | 2005-07-27 | ヤマハ株式会社 | 音楽データのテンポ推定方法および装置 |
WO2015118262A1 (fr) * | 2014-02-04 | 2015-08-13 | Brouard Michaël | Procédé de synchronisation d'une partition musicale avec un signal audio |
CN206134252U (zh) * | 2016-07-07 | 2017-04-26 | 惠州市新斯贝克动力科技有限公司 | 音频节奏识别电路 |
CN108320730A (zh) * | 2018-01-09 | 2018-07-24 | 广州市百果园信息技术有限公司 | 音乐分类方法及节拍点检测方法、存储设备及计算机设备 |
CN108364660A (zh) * | 2018-02-09 | 2018-08-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 重音识别方法、装置及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670074B (zh) * | 2018-12-12 | 2020-05-15 | 北京字节跳动网络技术有限公司 | 一种节奏点识别方法、装置、电子设备及存储介质 |
-
2018
- 2018-12-12 CN CN201811519398.4A patent/CN109670074B/zh active Active
-
2019
- 2019-08-07 WO PCT/CN2019/099640 patent/WO2020119150A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3674950B2 (ja) * | 2002-03-07 | 2005-07-27 | ヤマハ株式会社 | 音楽データのテンポ推定方法および装置 |
WO2015118262A1 (fr) * | 2014-02-04 | 2015-08-13 | Brouard Michaël | Procédé de synchronisation d'une partition musicale avec un signal audio |
CN206134252U (zh) * | 2016-07-07 | 2017-04-26 | 惠州市新斯贝克动力科技有限公司 | 音频节奏识别电路 |
CN108320730A (zh) * | 2018-01-09 | 2018-07-24 | 广州市百果园信息技术有限公司 | 音乐分类方法及节拍点检测方法、存储设备及计算机设备 |
CN108364660A (zh) * | 2018-02-09 | 2018-08-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 重音识别方法、装置及计算机可读存储介质 |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020119150A1 (zh) * | 2018-12-12 | 2020-06-18 | 北京字节跳动网络技术有限公司 | 节奏点识别方法、装置、电子设备及存储介质 |
CN110392045A (zh) * | 2019-06-28 | 2019-10-29 | 上海元笛软件有限公司 | 音频播放方法、装置、计算机设备和存储介质 |
CN110390943A (zh) * | 2019-06-28 | 2019-10-29 | 上海元笛软件有限公司 | 音频合成方法、装置、计算机设备和存储介质 |
CN110265057B (zh) * | 2019-07-10 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 生成多媒体的方法及装置、电子设备、存储介质 |
CN110265057A (zh) * | 2019-07-10 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 生成多媒体的方法及装置、电子设备、存储介质 |
CN110415669A (zh) * | 2019-07-19 | 2019-11-05 | 北京字节跳动网络技术有限公司 | 一种节奏器的实现方法、装置、电子设备及存储介质 |
CN110415669B (zh) * | 2019-07-19 | 2022-03-04 | 北京字节跳动网络技术有限公司 | 一种节奏器的实现方法、装置、电子设备及存储介质 |
CN110519638A (zh) * | 2019-09-06 | 2019-11-29 | Oppo广东移动通信有限公司 | 处理方法、处理装置、电子装置和存储介质 |
CN110753238A (zh) * | 2019-10-29 | 2020-02-04 | 北京字节跳动网络技术有限公司 | 视频处理方法、装置、终端及存储介质 |
WO2021120602A1 (zh) * | 2019-12-20 | 2021-06-24 | 网易(杭州)网络有限公司 | 节奏点检测方法、装置及电子设备 |
US20220310051A1 (en) * | 2019-12-20 | 2022-09-29 | Netease (Hangzhou) Network Co.,Ltd. | Rhythm Point Detection Method and Apparatus and Electronic Device |
US12033605B2 (en) | 2019-12-20 | 2024-07-09 | Netease (Hangzhou) Network Co., Ltd. | Rhythm point detection method and apparatus and electronic device |
CN111128232A (zh) * | 2019-12-26 | 2020-05-08 | 广州酷狗计算机科技有限公司 | 音乐的小节信息确定方法、装置、存储介质及设备 |
CN111128232B (zh) * | 2019-12-26 | 2022-11-15 | 广州酷狗计算机科技有限公司 | 音乐的小节信息确定方法、装置、存储介质及设备 |
CN111429942B (zh) * | 2020-03-19 | 2023-07-14 | 北京火山引擎科技有限公司 | 一种音频数据处理方法、装置、电子设备及存储介质 |
CN111429942A (zh) * | 2020-03-19 | 2020-07-17 | 北京字节跳动网络技术有限公司 | 一种音频数据处理方法、装置、电子设备及存储介质 |
CN111785237B (zh) * | 2020-06-09 | 2024-04-19 | Oppo广东移动通信有限公司 | 音频节奏确定方法、装置、存储介质和电子设备 |
CN111785237A (zh) * | 2020-06-09 | 2020-10-16 | Oppo广东移动通信有限公司 | 音频节奏确定方法、装置、存储介质和电子设备 |
CN112466267A (zh) * | 2020-11-24 | 2021-03-09 | 瑞声新能源发展(常州)有限公司科教城分公司 | 振动生成方法、振动控制方法及其相关设备 |
CN112466267B (zh) * | 2020-11-24 | 2024-04-02 | 瑞声新能源发展(常州)有限公司科教城分公司 | 振动生成方法、振动控制方法及其相关设备 |
WO2022110259A1 (zh) * | 2020-11-24 | 2022-06-02 | 瑞声声学科技(深圳)有限公司 | 振动生成方法、振动控制方法及其相关设备 |
CN112435687A (zh) * | 2020-11-25 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 一种音频检测方法、装置、计算机设备和可读存储介质 |
US12183315B2 (en) | 2020-11-25 | 2024-12-31 | Tencent Technology (Shenzhen) Company Limited | Audio detection method and apparatus, computer device, and readable storage medium |
CN114845145A (zh) * | 2021-01-30 | 2022-08-02 | 华为技术有限公司 | 动作提示图标序列生成方法、电子设备和可读存储介质 |
CN114845145B (zh) * | 2021-01-30 | 2024-04-12 | 华为技术有限公司 | 动作提示图标序列生成方法、电子设备和可读存储介质 |
CN113053339A (zh) * | 2021-03-10 | 2021-06-29 | 百果园技术(新加坡)有限公司 | 节奏调整方法、装置、设备和存储介质 |
CN113053339B (zh) * | 2021-03-10 | 2024-04-02 | 百果园技术(新加坡)有限公司 | 节奏调整方法、装置、设备和存储介质 |
CN113096689A (zh) * | 2021-04-02 | 2021-07-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌曲演唱的评价方法、设备及介质 |
CN113613061A (zh) * | 2021-07-06 | 2021-11-05 | 北京达佳互联信息技术有限公司 | 一种卡点模板生成方法、装置、设备及存储介质 |
CN113643717A (zh) * | 2021-07-07 | 2021-11-12 | 深圳市联洲国际技术有限公司 | 一种音乐节奏检测方法、装置、设备及存储介质 |
CN115240619A (zh) * | 2022-06-23 | 2022-10-25 | 深圳市智岩科技有限公司 | 音频节奏检测方法、智能灯具、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109670074B (zh) | 2020-05-15 |
WO2020119150A1 (zh) | 2020-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670074A (zh) | 一种节奏点识别方法、装置、电子设备及存储介质 | |
CN104538011B (zh) | 一种音调调节方法、装置及终端设备 | |
CN108470034B (zh) | 一种智能设备服务提供方法及系统 | |
CN108877770A (zh) | 用于测试智能语音设备的方法、装置和系统 | |
CN107666638B (zh) | 一种估计录音延迟的方法及终端设备 | |
CN109493849A (zh) | 语音唤醒方法、装置及电子设备 | |
CN110288997A (zh) | 用于声学组网的设备唤醒方法及系统 | |
CN109218535A (zh) | 智能调节音量的方法、装置、存储介质及终端 | |
CN109615682A (zh) | 动画生成方法、装置、电子设备及计算机可读存储介质 | |
CN108257613A (zh) | 修正音频内容音高偏差的方法及装置 | |
WO2020052665A1 (zh) | 一种直播互动方法、装置及存储介质 | |
US20210027800A1 (en) | Method for processing audio, electronic device and storage medium | |
CN108449493A (zh) | 语音通话数据处理方法、装置、存储介质及移动终端 | |
CN112866770B (zh) | 一种设备控制方法、装置、电子设备及存储介质 | |
CN110070884B (zh) | 音频起始点检测方法和装置 | |
CN101667422A (zh) | 一种调节歌曲伴奏的调式的方法及装置 | |
CN106293599A (zh) | 一种输出控制方法、电子设备及输出系统 | |
CN106484088A (zh) | 智能移动终端的控制方法、装置和智能移动终端 | |
CN110867194B (zh) | 音频的评分方法、装置、设备及存储介质 | |
CN103809911A (zh) | 一种移动终端振动模式的设置方法及系统 | |
CN108962286A (zh) | 音频识别方法、装置及存储介质 | |
CN108449497A (zh) | 语音通话数据处理方法、装置、存储介质及移动终端 | |
CN109584892A (zh) | 音效模拟方法、装置、介质及电子设备 | |
US20240386871A1 (en) | Music generation method and apparatus, electronic device, and storage medium | |
EP2660815A1 (en) | Methods and apparatus for audio processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |