CN107045867B

CN107045867B - 自动作曲方法、装置和终端设备

Info

Publication number: CN107045867B
Application number: CN201710175115.8A
Authority: CN
Inventors: 何江聪; 潘青华; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2020-06-02
Anticipated expiration: 2037-03-22
Also published as: CN107045867A

Abstract

本申请提出一种自动作曲方法、装置和终端设备，上述自动作曲方法包括：接收待预测前段音乐的音乐文件，所述待预测前段音乐的音乐文件包括所述待预测前段音乐的音频数据或音乐描述信息；提取所述音乐文件对应音乐的帧级音频特征；根据所述帧级音频特征和预先构建的音乐频带特征结合模型，获得携带频带信息的帧级音频特征；根据所述携带频带信息的帧级音频特征和预先构建的音乐预测模型，获得预测出的音乐，以实现自动作曲。本申请可以实现自动作曲，进而可以提高自动作曲的效率和可行性，降低了主观因素对自动作曲的影响。

Description

自动作曲方法、装置和终端设备

技术领域

本申请涉及音频信号处理技术领域，尤其涉及一种自动作曲方法、装置和终端设备。

背景技术

随着计算机技术在音乐处理上的应用，计算机音乐应运而生。计算机音乐作为新生代艺术，已逐渐渗透到音乐的创作、乐器演奏、教育、娱乐等各个方面。采用人工智能技术进行自动作曲作为计算机音乐中较新的研究方向，近年来受到了相关领域研究人员的高度重视。

现有的基于人工智能技术的自动作曲方法主要有以下两种：基于启发式搜索的自动作曲和基于遗传算法的自动作曲。但是，现有的基于启发式搜索的自动作曲只适用于乐曲长度短的情况，其搜索效率随着乐曲长度的增加成指数级下降，因而对于长度较长的乐曲该方法的可行性差；而基于遗传算法的自动作曲方法继承了遗传算法的一些典型缺点，例如：对初始种群依赖大、遗传算子难以精准选定等。

发明内容

本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种自动作曲方法。该方法通过构建音乐频带特征结合模型和音乐预测模型，实现自动作曲，是一种全新的自动作曲方法，解决了现有技术所存在的效率低、可行性差、主观影响大等问题。

本申请的第二个目的在于提出一种自动作曲装置。

本申请的第三个目的在于提出一种终端设备。

本申请的第四个目的在于提出一种包含计算机可执行指令的存储介质。

为了实现上述目的，本申请第一方面实施例的自动作曲方法，包括：接收待预测前段音乐的音乐文件，所述待预测前段音乐的音乐文件包括所述待预测前段音乐的音频数据或音乐描述信息；提取所述音乐文件对应音乐的帧级音频特征；根据所述帧级音频特征和预先构建的音乐频带特征结合模型，获得携带频带信息的帧级音频特征；根据所述携带频带信息的帧级音频特征和预先构建的音乐预测模型，获得预测出的音乐，以实现自动作曲。

本申请实施例的自动作曲方法中，接收待预测前段音乐的音乐文件之后，提取上述音乐文件对应音乐的帧级音频特征，然后根据上述帧级音频特征和预先构建的音乐频带特征结合模型，获得携带频带信息的帧级音频特征，最后根据上述携带频带信息的帧级音频特征和预先构建的音乐预测模型，获得预测出的音乐，从而可以实现自动作曲，进而可以提高自动作曲的效率和可行性，降低了主观因素对自动作曲的影响。

为了实现上述目的，本申请第二方面实施例的自动作曲装置，包括：接收模块，用于接收待预测前段音乐的音乐文件，所述待预测前段音乐的音乐文件包括所述待预测前段音乐的音频数据或音乐描述信息；提取模块，用于提取所述接收模块接收的音乐文件对应音乐的帧级音频特征；获得模块，用于根据所述帧级音频特征和预先构建的音乐频带特征结合模型，获得携带频带信息的帧级音频特征；以及根据所述携带频带信息的帧级音频特征和预先构建的音乐预测模型，获得预测出的音乐，以实现自动作曲。

本申请实施例的自动作曲装置中，接收模块接收待预测前段音乐的音乐文件之后，提取模块提取上述音乐文件对应音乐的帧级音频特征，然后获得模块根据上述帧级音频特征和预先构建的音乐频带特征结合模型，获得携带频带信息的帧级音频特征，以及根据上述携带频带信息的帧级音频特征和预先构建的音乐预测模型，获得预测出的音乐，从而可以实现自动作曲，进而可以提高自动作曲的效率和可行性，降低了主观因素对自动作曲的影响。

为了实现上述目的，本申请第三方面实施例的终端设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的方法。

为了实现上述目的，本申请第四方面实施例提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上所述的方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请自动作曲方法一个实施例的流程图；

图2为本申请自动作曲方法另一个实施例的流程图；

图3为本申请自动作曲方法中拓扑结构一个实施例的示意图；

图4为本申请自动作曲方法再一个实施例的流程图；

图5为本申请自动作曲方法中能量值坐标表示示意图；

图6为本申请自动作曲方法再一个实施例的流程图；

图7为本申请自动作曲方法再一个实施例的流程图；

图8为本申请自动作曲方法中拓扑结构另一个实施例的示意图；

图9为本申请自动作曲装置一个实施例的结构示意图；

图10为本申请自动作曲装置另一个实施例的结构示意图；

图11为本申请终端设备一个实施例的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1为本申请自动作曲方法一个实施例的流程图，如图1所示，上述自动作曲方法可以包括：

步骤101，接收待预测前段音乐的音乐文件，上述待预测前段音乐的音乐文件包括上述待预测前段音乐的音频数据或音乐描述信息。

其中，上述待预测前段音乐的音频数据或音乐描述信息指的是给定一小段音乐的音频数据或者音乐描述信息，然后就可以依据给定的一小段音乐的音频数据或者音乐描述信息预测后面的音乐。

上述音乐描述信息一般可以转换为音频数据，上述音乐描述信息可以为乐器数字接口(Musical Instrument Digital Interface；以下简称：MIDI)文件等。

步骤102，提取上述音乐文件对应音乐的帧级音频特征。

步骤103，根据上述帧级音频特征和预先构建的音乐频带特征结合模型，获得携带频带信息的帧级音频特征。

步骤104，根据上述携带频带信息的帧级音频特征和预先构建的音乐预测模型，获得预测出的音乐，以实现自动作曲。

上述自动作曲方法中，接收待预测前段音乐的音乐文件之后，提取上述音乐文件对应音乐的帧级音频特征，然后根据上述帧级音频特征和预先构建的音乐频带特征结合模型，获得携带频带信息的帧级音频特征，最后根据上述携带频带信息的帧级音频特征和预先构建的音乐预测模型，获得预测出的音乐，从而可以实现自动作曲，进而可以提高自动作曲的效率和可行性，降低了主观因素对自动作曲的影响。

图2为本申请自动作曲方法另一个实施例的流程图，如图2所示，步骤103之前，还可以包括：

步骤201，收集音乐文件，并将上述音乐文件转换为相同格式的音频文件。

具体地，可通过爬取互联网大量音乐文件，得到大量训练数据，上述音乐文件可以是音频数据，也可以是音乐描述信息，例如：MIDI文件等。然后可以将上述音乐文件转换为相同格式的音频文件，上述音频文件的格式只需满足可以进行快速傅里叶变换(FastFourier Transformation；以下简称：FFT)即可，例如：“.PCM”或“.WAV”等，本实施例对上述音频文件的格式不作限定，本实施例以“.PCM”格式为例进行说明。需要说明的是：如果上述音乐文件为音乐描述信息，如MIDI文件，则需要先将MIDI文件转换为音频文件，再转换为“.PCM”格式的音频文件。

步骤202，提取上述音频文件的帧级音频特征。

步骤203，确定音乐频带特征结合模型的拓扑结构。

具体地，拓扑结构为一个对冲的神经网络结构，本实施例以对冲循环神经网络(Recurrent Neural Networks；以下简称：RNN)为例，其拓扑结构包括两个独立的RNN和一个连接单元，如图3所示，图3为本申请自动作曲方法中拓扑结构一个实施例的示意图。两个独立的RNN，分别取名为LF_RNN和HF_RNN，分别用于低频段多频率特征结合和高频段多频率特征结合。

LF_RNN的输入为某帧T_m时，从低频开始的能量值E(T_m,F_i)，i＝1,2,…,k，k＝1,2,…,N/2(N为FFT点数)，以及上一频点LF_RNN的输出L_i-1；LF_RNN的输出为L_i表示考虑了低频信息后的第T_m帧第i频点的能量值。

同理，HF_RNN的输入为某帧T_m时，从高频开始的能量值E(T_m,F_j)，j＝N/2,N/2-1,…,k，其中k＝1,2,…,N/2(N为FFT点数)，以及上一频点HF_RNN的输出H_j+1；HF_RNN的输出为H_i表示考虑了高频信息后的第T_m帧第j频点的能量值。

接连单元即为图3中的concatenate，当i＝j＝k时将二者连接成N(T_m,F_k)，得到考虑了其他频点信息的第T_m帧第k频点的能量值。

步骤204，根据确定的拓扑结构和上述帧级音频特征，训练上述音乐频带特征结合模型。

具体地，在训练音乐频带特征结合模型时，所采用的训练算法可以为神经网络模型训练算法，如反向传播(Back Propagation；以下简称：BP)算法，本实施例对采用的训练算法不作限定。

图4为本申请自动作曲方法再一个实施例的流程图，如图4所示，本申请图2所示实施例中，步骤202可以包括：

步骤401，将上述音频文件按帧进行固定点数的快速傅里叶变换。

具体地，可以将“.PCM”格式的音频文件按帧进行固定点数的FFT。

步骤402，根据快速傅里叶变换的结果计算上述音频文件的每帧在每个频率点的能量值。

图5为本申请自动作曲方法中能量值坐标表示示意图，图5给出了各帧在各个频点的能量值坐标表示的示意图，其中，横轴t表示时序帧，纵轴f表示频率点，坐标E(t,f)表示能量值，M表示总帧数，N表示FFT点数。

步骤403，根据上述能量值确定每帧的音符归属。

具体地，在每个频率点，确定上述音频文件的第一帧和第二帧属于第一个音符；然后判断第一差值的绝对值是否小于第二差值，其中，上述第一差值为上述音频文件的第三帧的能量值与上述音频文件的第一帧到第二帧能量值的平均值之差，上述第二差值为上述音频文件的第一帧到第二帧能量值的最大值与最小值之差；如果是，则确定上述音频文件的第三帧属于第一个音符，再依次向后判断第四帧直至最后一帧的音符归属。

如果上述第一差值的绝对值大于或等于第二差值，则将上述音频文件的第三帧作为第二个音符的开始，并确定上述音频文件的第四帧属于第二个音符；从上述音频文件的第五帧开始判断第三差值的绝对值是否小于第四差值，上述第三差值为上述音频文件的第五帧的能量值与上述音频文件的第三帧到第四帧能量值的平均值之差，上述第四差值为上述音频文件的第三帧到第四帧能量值的最大值与最小值之差；按照与判断第三帧的音符归属相同的方式确定第五帧的音符归属，以此类推，直至将上述音频文件的最后一帧的音符归属确定完毕。

也就是说，确定每帧的音符归属可以为：对每个频率点进行如下处理：将T₁和T₂帧认为属于第一个音符，从第T₃帧开始判断归属——如果满足E(T₃，F₁)-E_mean(T₁，T₂)|<(E_max(T₁,T₂)-E_min(T₁,T₂))，那么第T₃帧属于第一个音符，再依次向后判断每帧的归属，其中，E_mean(T₁，T₂)、E_max(T₁,T₂)和E_min(T₁,T₂)分别表示第T₁到T₂帧能量值的平均值、最大值和最小值；否则将第T₃帧作为第二个音符的开始，并确定第T₄帧属于第二个音符，从第T₅帧开始判断，仍是通过公式|E(T₅，F₁)-E_mean(T₃，T₄)|<(E_max(T₃,T₄)-E_min(T₃,T₄))确定第T5帧的音符归属，直至所有帧的音符归属确定完毕。

步骤404，计算每个音符的能量值，根据每个音符的能量值获取帧级音频特征。

图6为本申请自动作曲方法再一个实施例的流程图，如图6所示，本申请图4所示实施例中，步骤404可以包括：

步骤601，计算每个音符所含所有帧的能量均值，作为每个音符的能量值。

步骤602，将每个音符所包括的每帧的能量值归一化为所属音符的能量值。

步骤603，滤除能量值小于预定阈值的音符，以获得帧级音频特征。

其中，上述预定阈值可以在具体实现时根据系统性能和/或实现需求等自行设定，本实施例对上述预定阈值的大小不作限定。

本实施例中，定义一个音符的能量为该音符所含所有帧的能量均值，这样就可以计算每个音符所含所有帧的能量均值，作为每个音符的能量值E(i)，再将每个音符所包括的每帧能量值归一化为所属音符的能量值。进一步地，还可在计算出每个音符的能量值后，根据音符能量均值Emean滤除过小的能量值，这些能量值较小的音符可能是噪音。也就是说，对于每个E(i)，如果E(i)<αEmean，则可以将该音符的能量值设为0，其中，αEmean即为上述预定阈值，α值可根据实际应用情况确定，本实施例对此不作限定。

需要说明的是，本申请图2所示实施例中，步骤201～步骤204可以与步骤101～步骤102先后执行，也可以与步骤101～步骤102并行执行，本申请实施例对此不作限定。

图7为本申请自动作曲方法再一个实施例的流程图，如图7所示，本申请图1所示实施例中，步骤104之前，还可以包括：

步骤701，确定音乐预测模型的拓扑结构。

本实施例中，上述音乐预测模型采用RNN模型，如图8所示，图8为本申请自动作曲方法中拓扑结构另一个实施例的示意图，图8所示的RNN模型的输入为音乐频带特征结合模型的输出N(T_m,F_k)，以及上一帧模型的输出h_m，输出为下一帧的能量值N(T_m+1,F_k)。

步骤702，根据上述音乐频带特征结合模型的输出，以及确定的拓扑结构，训练上述音乐预测模型。

需要说明的是，步骤701和步骤702可以与步骤101～步骤103先后执行，也可以与步骤101～步骤103并行执行，本实施例对此不作限定。

上述自动作曲方法可以实现自动作曲，进而可以提高自动作曲的效率和可行性，降低了主观因素对自动作曲的影响，是一种全新的自动作曲方法，解决了现有技术所存在的效率低、可行性差和主观影响大等问题。

图9为本申请自动作曲装置一个实施例的结构示意图，本实施例中的自动作曲装置可以作为终端设备，或者终端设备的一部分，实现本申请提供的自动作曲方法。其中，上述终端设备可以为客户端设备，也可以为服务端设备，本申请对上述终端设备的形态不作限定。

如图9所示，上述自动作曲装置可以包括：接收模块91、提取模块92和获得模块93；

其中，接收模块91，用于接收待预测前段音乐的音乐文件，上述待预测前段音乐的音乐文件包括上述待预测前段音乐的音频数据或音乐描述信息；其中，上述待预测前段音乐的音频数据或音乐描述信息指的是给定一小段音乐的音频数据或者音乐描述信息，然后就可以依据给定的一小段音乐的音频数据或者音乐描述信息预测后面的音乐。上述音乐描述信息一般可以转换为音频数据，上述音乐描述信息可以为MIDI文件等。

提取模块92，用于提取接收模块91接收的音乐文件对应音乐的帧级音频特征；

获得模块93，用于根据上述帧级音频特征和预先构建的音乐频带特征结合模型，获得携带频带信息的帧级音频特征；以及根据上述携带频带信息的帧级音频特征和预先构建的音乐预测模型，获得预测出的音乐，以实现自动作曲。

上述自动作曲装置中，接收模块91接收待预测前段音乐的音乐文件之后，提取模块92提取上述音乐文件对应音乐的帧级音频特征，然后获得模块93根据上述帧级音频特征和预先构建的音乐频带特征结合模型，获得携带频带信息的帧级音频特征，以及根据上述携带频带信息的帧级音频特征和预先构建的音乐预测模型，获得预测出的音乐，从而可以实现自动作曲，进而可以提高自动作曲的效率和可行性，降低了主观因素对自动作曲的影响。

图10为本申请自动作曲装置另一个实施例的结构示意图，与图9所示的自动作曲装置相比，不同之处在于，图10所示的自动作曲装置还可以包括：收集模块94、转换模块95、确定模块96和训练模块97；

收集模块94，用于在获得模块93获得携带频带信息的帧级音频特征之前，收集音乐文件；

转换模块95，用于将收集模块94收集的音乐文件转换为相同格式的音频文件；

具体地，收集模块94可通过爬取互联网大量音乐文件，得到大量训练数据，上述音乐文件可以是音频数据，也可以是音乐描述信息，例如：MIDI文件等。然后转换模块95可以将上述音乐文件转换为相同格式的音频文件，上述音频文件的格式只需满足可以进行FFT即可，例如：“.PCM”或“.WAV”等，本实施例对上述音频文件的格式不作限定，本实施例以“.PCM”格式为例进行说明。需要说明的是：如果上述音乐文件为音乐描述信息，如MIDI文件，则需要先将MIDI文件转换为音频文件，再转换为“.PCM”格式的音频文件。

提取模块92，还用于提取转换模块95转换的音频文件的帧级音频特征。

确定模块96，用于确定音乐频带特征结合模型的拓扑结构；具体地，确定模块96确定的拓扑结构为一个对冲的神经网络结构，本实施例以对冲RNN为例，其拓扑结构包括两个独立的RNN和一个连接单元，如图3所示，两个独立的RNN，分别取名为LF_RNN和HF_RNN，分别用于低频段多频率特征结合和高频段多频率特征结合。

训练模块97，用于根据确定模块96确定的拓扑结构和提取模块92提取的帧级音频特征，训练上述音乐频带特征结合模型。具体地，训练模块97在训练音乐频带特征结合模型时，所采用的训练算法可以为神经网络模型训练算法，如BP算法，本实施例对采用的训练算法不作限定。

本实施例中，提取模块92可以包括：变换子模块921、计算子模块922、确定子模块923和获取子模块924；

其中，变换子模块921，用于将上述音频文件按帧进行固定点数的快速傅里叶变换；具体地，变换子模块921可以将“.PCM”格式的音频文件按帧进行固定点数的FFT。

计算子模块922，用于根据变换子模块921快速傅里叶变换的结果计算上述音频文件的每帧在每个频率点的能量值；图5给出了各帧在各个频点的能量值坐标表示的示意图，其中，横轴t表示时序帧，纵轴f表示频率点，坐标E(t,f)表示能量值，M表示总帧数，N表示FFT点数。

确定子模块923，用于根据计算子模块922计算的能量值确定每帧的音符归属。

计算子模块922，还用于计算每个音符的能量值；

获取子模块924，用于根据计算子模块922计算的每个音符的能量值获取帧级音频特征。

其中，计算子模块922，具体用于计算每个音符所含所有帧的能量均值，作为每个音符的能量值；以及将每个音符所包括的每帧的能量值归一化为所属音符的能量值；

获取子模块924，具体用于滤除能量值小于预定阈值的音符，以获得帧级音频特征。其中，上述预定阈值可以在具体实现时根据系统性能和/或实现需求等自行设定，本实施例对上述预定阈值的大小不作限定。

本实施例中，确定子模块923可以包括：音符确定单元9231和判断单元9232；

音符确定单元9231，用于在每个频率点，确定上述音频文件的第一帧和第二帧属于第一个音符；

判断单元9232，用于判断第一差值的绝对值是否小于第二差值；上述第一差值为上述音频文件的第三帧的能量值与上述音频文件的第一帧到第二帧能量值的平均值之差，第二差值为上述音频文件的第一帧到第二帧能量值的最大值与最小值之差；

音符确定单元9231，还用于当第一差值的绝对值小于第二差值时，确定上述音频文件的第三帧属于第一个音符，再依次向后判断第四帧直至最后一帧的音符归属。

音符确定单元9231，还用于当第一差值的绝对值大于或等于第二差值时，将上述音频文件的第三帧作为第二个音符的开始，并确定上述音频文件的第四帧属于第二个音符；

判断单元9232，还用于从上述音频文件的第五帧开始判断第三差值的绝对值是否小于第四差值，上述第三差值为上述音频文件的第五帧的能量值与上述音频文件的第三帧到第四帧能量值的平均值之差，上述第四差值为上述音频文件的第三帧到第四帧能量值的最大值与最小值之差；按照与判断第三帧的音符归属相同的方式确定第五帧的音符归属，以此类推，直至将上述音频文件的最后一帧的音符归属确定完毕。

也就是说，确定子模块923确定每帧的音符归属可以为：对每个频率点进行如下处理：音符确定单元9231将T₁和T₂帧认为属于第一个音符，判断单元9232从第T₃帧开始判断归属——如果满足|E(T₃，F₁)-E_mean(T₁，T₂)|<(E_max(T₁,T₂)-E_min(T₁,T₂))，那么第T3帧属于第一个音符，再依次向后判断每帧的归属，其中，E_mean(T₁，T₂)、E_max(T₁,T₂)和E_min(T₁,T₂)分别表示第T₁到T₂帧能量值的平均值、最大值和最小值；否则将第T₃帧作为第二个音符的开始，并确定第T₄帧属于第二个音符，从第T₅帧开始判断，仍是通过公式|E(T₅，F₁)-E_mean(T₃，T₄)|<(E_max(T₃,T₄)-E_min(T₃,T₄))确定第T5帧的音符归属，直至所有帧的音符归属确定完毕。

进一步地，上述自动作曲装置还可以包括：确定模块96和训练模块97；

确定模块96，用于在获得模块93获得预测出的音乐之前，确定音乐预测模型的拓扑结构；本实施例中，确定模块96确定的音乐预测模型的拓扑结构为RNN模型，如图8所示，RNN模型的输入为音乐频带特征结合模型的输出N(T_m,F_k)，以及上一帧模型的输出h_m，输出为下一帧的能量值N(T_m+1,F_k)。

训练模块97，用于根据上述音乐频带特征结合模型的输出，以及确定模块96确定的拓扑结构，训练上述音乐预测模型。

上述自动作曲装置可以实现自动作曲，进而可以提高自动作曲的效率和可行性，降低了主观因素对自动作曲的影响，是一种全新的自动作曲方法，解决了现有技术所存在的效率低、可行性差和主观影响大等问题。

图11为本申请终端设备一个实施例的结构示意图，本申请中的终端设备可以实现本申请提供的自动作曲方法，上述终端设备可以为客户端设备，也可以为服务端设备，本申请对上述终端设备的形态不作限定。上述终端设备可以包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现本申请提供的自动作曲方法。

图11示出了适于用来实现本申请实施方式的示例性终端设备12的框图。图11显示的终端设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，终端设备12以通用计算设备的形式表现。终端设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

终端设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被终端设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。终端设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图11未显示，通常称为“硬盘驱动器”)。尽管图11中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的自动作曲方法。

终端设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该终端设备12交互的设备通信，和/或与使得该终端设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，终端设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图11所示，网络适配器20通过总线18与终端设备12的其它模块通信。应当明白，尽管图11中未示出，可以结合终端设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本申请提供的自动作曲方法。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(Programmable Gate Array；以下简称：PGA)，现场可编程门阵列(Field ProgrammableGate Array；以下简称：FPGA)等。

本申请还提供一种包含计算机可执行指令的存储介质，上述计算机可执行指令在由计算机处理器执行时用于执行本申请提供的自动作曲方法。

上述包含计算机可执行指令的存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory；以下简称：ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种自动作曲方法，其特征在于，包括：

接收待预测前段音乐的音乐文件，所述待预测前段音乐的音乐文件包括所述待预测前段音乐的音频数据或音乐描述信息；

提取所述音乐文件对应音乐的帧级音频特征；

根据所述帧级音频特征和预先构建的音乐频带特征结合模型，获得携带频带信息的帧级音频特征，所述音乐频带特征结合模型是根据音频文件的帧级音频特征和音乐频带特征结合模型的拓扑结构训练得到的；

根据所述携带频带信息的帧级音频特征和预先构建的音乐预测模型，获得预测出的音乐，以实现自动作曲，所述音乐预测模型是根据所述音乐频带特征结合模型的输出和音乐预测模型的拓扑结构训练得到的。

2.根据权利要求1所述的方法，其特征在于，所述根据所述帧级音频特征和预先构建的音乐频带特征结合模型，获得携带频带信息的帧级音频特征之前，还包括：

收集音乐文件，并将所述音乐文件转换为相同格式的音频文件；

提取所述音频文件的帧级音频特征；

确定音乐频带特征结合模型的拓扑结构；

根据确定的拓扑结构和所述帧级音频特征，训练所述音乐频带特征结合模型。

3.根据权利要求2所述的方法，其特征在于，所述提取所述音频文件的帧级音频特征包括：

将所述音频文件按帧进行固定点数的快速傅里叶变换；

根据快速傅里叶变换的结果计算所述音频文件的每帧在每个频率点的能量值；

根据所述能量值确定每帧的音符归属；

计算每个音符的能量值，根据每个音符的能量值获取帧级音频特征。

4.根据权利要求3所述的方法，其特征在于，所述根据所述能量值确定每帧的音符归属包括：

在每个频率点，确定所述音频文件的第一帧和第二帧属于第一个音符；

判断第一差值的绝对值是否小于第二差值；所述第一差值为所述音频文件的第三帧的能量值与所述音频文件的第一帧到第二帧能量值的平均值之差，所述第二差值为所述音频文件的第一帧到第二帧能量值的最大值与最小值之差；

如果是，则确定所述音频文件的第三帧属于第一个音符，再依次向后判断第四帧直至最后一帧的音符归属。

5.根据权利要求4所述的方法，其特征在于，所述判断第一差值的绝对值是否小于第二差值的绝对值之后，还包括：

如果所述第一差值的绝对值大于或等于所述第二差值，则将所述音频文件的第三帧作为第二个音符的开始，并确定所述音频文件的第四帧属于所述第二个音符；

从所述音频文件的第五帧开始判断第三差值的绝对值是否小于第四差值，所述第三差值为所述音频文件的第五帧的能量值与所述音频文件的第三帧到第四帧能量值的平均值之差，所述第四差值为所述音频文件的第三帧到第四帧能量值的最大值与最小值之差；直至将所述音频文件的最后一帧的音符归属确定完毕。

6.根据权利要求3所述的方法，其特征在于，所述计算每个音符的能量值，根据每个音符的能量值获取帧级音频特征包括：

计算每个音符所含所有帧的能量均值，作为每个音符的能量值；

将每个音符所包括的每帧的能量值归一化为所属音符的能量值；

滤除能量值小于预定阈值的音符，以获得帧级音频特征。

7.根据权利要求1所述的方法，其特征在于，所述根据所述携带频带信息的帧级音频特征和预先构建的音乐预测模型，获得预测出的音乐之前，还可以包括：

确定音乐预测模型的拓扑结构；

根据所述音乐频带特征结合模型的输出，以及确定的拓扑结构，训练所述音乐预测模型。

8.一种自动作曲装置，其特征在于，包括：

接收模块，用于接收待预测前段音乐的音乐文件，所述待预测前段音乐的音乐文件包括所述待预测前段音乐的音频数据或音乐描述信息；

提取模块，用于提取所述接收模块接收的音乐文件对应音乐的帧级音频特征；

获得模块，用于根据所述帧级音频特征和预先构建的音乐频带特征结合模型，获得携带频带信息的帧级音频特征，所述音乐频带特征结合模型是根据音频文件的帧级音频特征和音乐频带特征结合模型的拓扑结构训练得到的；以及根据所述携带频带信息的帧级音频特征和预先构建的音乐预测模型，获得预测出的音乐，以实现自动作曲，所述音乐预测模型是根据所述音乐频带特征结合模型的输出和音乐预测模型的拓扑结构训练得到的。

9.根据权利要求8所述的装置，其特征在于，还包括：收集模块、转换模块、确定模块和训练模块；

所述收集模块，用于在所述获得模块获得携带频带信息的帧级音频特征之前，收集音乐文件；

所述转换模块，用于将所述收集模块收集的音乐文件转换为相同格式的音频文件；

所述提取模块，还用于提取所述转换模块转换的音频文件的帧级音频特征；

所述确定模块，用于确定音乐频带特征结合模型的拓扑结构；

所述训练模块，用于根据所述确定模块确定的拓扑结构和所述提取模块提取的帧级音频特征，训练所述音乐频带特征结合模型。

10.根据权利要求9所述的装置，其特征在于，所述提取模块包括：

变换子模块，用于将所述音频文件按帧进行固定点数的快速傅里叶变换；

计算子模块，用于根据所述变换子模块快速傅里叶变换的结果计算所述音频文件的每帧在每个频率点的能量值；

确定子模块，用于根据所述计算子模块计算的能量值确定每帧的音符归属；

所述计算子模块，还用于计算每个音符的能量值；

获取子模块，用于根据所述计算子模块计算的每个音符的能量值获取帧级音频特征。

11.根据权利要求10所述的装置，其特征在于，所述确定子模块包括：

音符确定单元，用于在每个频率点，确定所述音频文件的第一帧和第二帧属于第一个音符；

判断单元，用于判断第一差值的绝对值是否小于第二差值；所述第一差值为所述音频文件的第三帧的能量值与所述音频文件的第一帧到第二帧能量值的平均值之差，所述第二差值为所述音频文件的第一帧到第二帧能量值的最大值与最小值之差；

所述音符确定单元，还用于当所述第一差值的绝对值小于第二差值时，确定所述音频文件的第三帧属于第一个音符，再依次向后判断第四帧直至最后一帧的音符归属。

12.根据权利要求11所述的装置，其特征在于，

所述音符确定单元，还用于当所述第一差值的绝对值大于或等于所述第二差值时，将所述音频文件的第三帧作为第二个音符的开始，并确定所述音频文件的第四帧属于所述第二个音符；

所述判断单元，还用于从所述音频文件的第五帧开始判断第三差值的绝对值是否小于第四差值，所述第三差值为所述音频文件的第五帧的能量值与所述音频文件的第三帧到第四帧能量值的平均值之差，所述第四差值为所述音频文件的第三帧到第四帧能量值的最大值与最小值之差；直至将所述音频文件的最后一帧的音符归属确定完毕。

13.根据权利要求10所述的装置，其特征在于，

所述计算子模块，具体用于计算每个音符所含所有帧的能量均值，作为每个音符的能量值；以及将每个音符所包括的每帧的能量值归一化为所属音符的能量值；

所述获取子模块，具体用于滤除能量值小于预定阈值的音符，以获得帧级音频特征。

14.根据权利要求8所述的装置，其特征在于，还包括：确定模块和训练模块；

所述确定模块，用于在所述获得模块获得预测出的音乐之前，确定音乐预测模型的拓扑结构；

所述训练模块，用于根据所述音乐频带特征结合模型的输出，以及所述确定模块确定的拓扑结构，训练所述音乐预测模型。

15.一种终端设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

16.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的方法。