CN110211556B

CN110211556B - 音乐文件的处理方法、装置、终端及存储介质

Info

Publication number: CN110211556B
Application number: CN201910390513.0A
Authority: CN
Inventors: 白鹤群
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Douyin Vision Co Ltd; Douyin Vision Beijing Co Ltd
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2022-07-08
Anticipated expiration: 2039-05-10
Also published as: CN110211556A

Abstract

本公开提供了一种音乐文件的处理方法、装置、终端及存储介质，其中，方法包括：采集针对目标音乐的第一人声数据；获取所述目标音乐对应的目标人声数据所采用的混响参数；基于所述混响参数，对所述第一人声数据进行处理，得到第二人声数据；将所述第二人声数据与所述目标音乐对应的伴奏数据进行合成，得到目标音乐文件。

Description

音乐文件的处理方法、装置、终端及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种音乐文件的处理方法、装置、终端及存储介质。

背景技术

随着人们生活节奏的加快，听音乐、K歌已经成为人们释放压力、放松心情的常见方式。相关技术中的音乐播放客户端提供K歌功能，并在相关页面提供混响模式供用户选择，用户在录制过程中或录制完成后，可以选择不同的混响模式处理自己的人声数据，以与伴奏数据合成待发布的音乐文件。

然而，上述人声数据的处理方式需要用户手动选择混响模式，且所选混响模式所采用的混响参数存在与当前所录歌曲不适配的情况，对用户的音乐鉴赏力要求较高。

发明内容

有鉴于此，本公开实施例提供一种音乐文件的处理方法、装置、终端及存储介质。

本公开实施例提供一种音乐文件的处理方法，所述方法包括：

采集针对目标音乐的第一人声数据；

获取所述目标音乐对应的目标人声数据所采用的混响参数；

基于所述混响参数，对所述第一人声数据进行处理，得到第二人声数据；

将所述第二人声数据与所述目标音乐对应的伴奏数据进行合成，得到目标音乐文件。

上述方案中，所述混响参数包括所述目标音乐中每个字对应的混响时间；

所述获取所述目标音乐对应的目标人声数据所采用的混响参数，包括：

获取目标人声数据所对应的文本内容中每个字所对应的声音信号；

基于所获取的每个字所对应的声音信号，分别确定每个字对应的混响时间。

上述方案中，所述混响参数包括所述目标音乐中每个语句对应的混响时间；

将所述目标人声数据所对应的文本内容划分为多个语句；

确定每个所述语句的关键字；

对所述目标人声数据所对应的声音信号进行处理，以确定每个所述关键字对应的混响时间；

将每个所述关键字对应的混响时间作为所述语句对应的混响时间。

将所述目标人声数据所对应的文本内容划分为多个语句；

对所述目标人声数据所对应的声音信号进行处理，以确定所述文本内容中每个字对应的混响时间；

基于确定的每个字对应的混响时间，确定每个所述语句对应的混响时间。

上述方案中，所述混响参数包括所述目标音乐的主歌部分对应的混响时间及副歌部分对应的混响时间；

基于所述目标音乐的结构特征，确定所述目标人声数据中的主歌部分及副歌部分；

分别对所述主歌部分及副歌部分对应的声音信号进行处理，以确定所述主歌部分对应的混响时间及所述副歌部分对应的混响时间。

上述方案中，所述基于所述混响参数，对所述第一人声数据进行处理，得到第二人声数据，包括：

获取至少一种混响模式所对应的混响参数；

分别将所述目标人声数据所采用的混响参数，与所述至少一种混响模式所对应的混响参数进行匹配，得到匹配结果；

基于所述匹配结果，确定所述至少一种混响模式中的目标混响模式；

基于所述目标混响模式对所述第一人声数据进行处理，得到第二人声数据。

基于所述目标音乐的结构特征，确定所述第一人声数据中不同分段的人声数据；

分别采用所述混响参数中对应所述不同分段的混响参数，对相应的人声数据进行混响处理，得到所述第二人声数据。

上述方案中，所述方法还包括：

获取所述目标音乐对应的源音乐文件，所述源音乐文件包括所述目标人声数据；

对所述源音乐文件进行人声伴奏分离，得到所述源音乐文件中的目标人声数据。

上述方案中，所述方法还包括：

发送对应所述目标人声数据的获取请求，所述获取请求中携带对应所述目标人声数据的授权信息；

接收返回的所述目标人声数据。

上述方案中，所述方法还包括：

获取所述目标人声数据对应的调节参数，所述调节参数包括以下至少之一：音调、音色、响度、动态范围；

基于获取的所述调节参数，对所述第二人声数据进行调整。

本公开实施例还提供一种音乐文件的处理装置，所述装置包括：

采集单元，用于采集针对目标音乐的第一人声数据；

获取单元，用于获取所述目标音乐对应的目标人声数据所采用的混响参数；

处理单元，用于基于所述混响参数，对所述第一人声数据进行处理，得到第二人声数据；

合成单元，用于将所述第二人声数据与所述目标音乐对应的伴奏数据进行合成，得到目标音乐文件。

所述获取单元，还用于获取目标人声数据所对应的文本内容中每个字所对应的声音信号；

所述获取单元，还用于将所述目标人声数据所对应的文本内容划分为多个语句；

确定每个所述语句的关键字；

所述获取单元，还用于基于所述目标音乐的结构特征，确定所述目标人声数据中的主歌部分及副歌部分；

上述方案中，所述处理单元，还用于获取至少一种混响模式所对应的混响参数；

上述方案中，所述处理单元，还用于基于所述目标音乐的结构特征，确定所述第一人声数据中不同分段的人声数据；

上述方案中，所述获取单元，还用于获取所述目标音乐对应的源音乐文件，所述源音乐文件包括所述目标人声数据；

上述方案中，所述获取单元，还用于发送对应所述目标人声数据的获取请求，所述获取请求中携带对应所述目标人声数据的授权信息；

接收返回的所述目标人声数据。

上述方案中，所述处理单元，还用于获取所述目标人声数据对应的调节参数，所述调节参数包括以下至少之一：音调、音色、响度、动态范围；

基于获取的所述调节参数，对所述第二人声数据进行调整。

本公开实施例还提供一种终端，所述终端包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本公开实施例提供的上述音乐文件的处理方法。

本公开实施例还提供一种存储介质，存储有可执行指令，所述可执行指令被执行时，用于实现本公开实施例提供的上述音乐文件的处理方法。

应用本公开上述实施例具有以下有益效果：

应用本公开上述实施例，由于目标人声数据所采用的混响参数与目标音乐相适配，使得基于目标人声数据所采用的混响参数对采集的人声数据进行处理，所得到的人声数据的混响效果更好，且无需用户手动干预，自动实现对采集的人声数据的处理及音乐文件的合成，用户体验好。

附图说明

图1A及图1B为相关技术中混响模式选择的界面示意图；

图2为本公开实施例提供的音乐文件的处理系统的架构示意图；

图3为本公开实施例提供的音乐文件的处理装置的组成结构示意图；

图4为本公开实施例提供的音乐文件的处理方法的流程示意图；

图5为本公开实施例提供的目标音乐的声音信号衰减模型的示意图；

图6A为本公开实施例提供的目标音乐的信号衰减模型中一个字的信号衰减示意图；

图6B为本公开实施例提供的对应信号衰减模型中一个字的信号衰减波形示意图

图7为本公开实施例提供的音乐文件的处理方法的流程示意图；

图8为本公开实施例提供的音乐文件的处理装置的组成结构示意图。

具体实施方式

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本公开实施例的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本公开实施例。

本公开实施例提供的附图中的流程图和框图，图示了按照本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

对本公开进行进一步详细说明之前，对本公开实施例中涉及的名词和术语进行说明，本公开实施例中涉及的名词和术语适用于如下的解释。

1)音乐，指具有旋律、节奏或和声的人声或乐器音响等配合所构成的一种艺术，可分为古典音乐、民间音乐、原生态音乐、现代音乐(如流行歌曲)等。

2)主歌及副歌，一首音乐包括至少一部分高潮的歌词，高潮的歌词往往会重复出现，音乐文件中的每部分高潮的内容为副歌内容，音乐文件开始播放歌词的位置与首次出现的副歌内容的起始位置之间的内容为主歌内容，音乐文件最后一个副歌内容的结束位置至音乐文件的结束位置之间的内容也为主歌内容。

3)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

在一些实施例中，终端上设置有播放客户端，播放客户端具备K歌功能，用户在录制过程中或录制完成后，可选择不同的混响模式对录制的人声数据进行处理，如图1A及图1B所示，图1A及图1B为相关技术中混响模式选择的界面示意图，播放客户端基于用户选择的混响模式对录制的人声数据进行处理，相关技术中每种混响模式对应固定的混响时间，即只有一种混响时间参数，采用一种混响时间参数对用户录制的整首歌进行处理，此种音效处理方式显然针对性不强、灵活性差，且由于固定的混响时间参数与所录制的目标音乐本身可能不够适配，使得处理得到的音乐文件的播放效果不够好，用户体验低。

基于上述音乐录制中人声数据的混响处理的缺陷提出本公开实施例，接下来参见图2，图2为本公开实施例提供的音乐文件的处理系统的架构示意图，为实现支撑一个示例性应用，终端400(包括终端400-1和终端400-2)，终端400通过网络300连接服务器200，终端上设置有播放客户端，用户可通过该播放客户端实现音乐播放及在线K歌，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

终端400(如终端400-1)，用于采集针对目标音乐的第一人声数据，发送混响参数的获取请求给服务器200，该混响参数对应目标音乐的目标人声数据；

服务器200，用于基于终端400发送的获取请求，返回相应的混响参数；

终端400(如终端400-1)，还用于基于接收到的混响参数，对第一人声数据进行处理，得到第二人声数据，将第二人声数据与目标音乐对应的伴奏数据进行合成，得到目标音乐文件。

在一些实施例中，终端400(如终端400-1)上设置有播放客户端，用户可基于播放客户端实现K歌，在实际实施时，用户通过播放客户端进行目标音乐的录唱，播放客户端采集用户针对目标音乐演唱的第一人声数据，获取目标音乐对应的目标人声数据所采用的混响参数，基于混响参数，对第一人声数据进行处理，得到第二人声数据，将第二人声数据与目标音乐对应的伴奏数据进行合成，得到目标音乐文件，发布合成的目标音乐文件。

接下来对本公开实施例提供的音乐文件的处理装置进行说明。本公开实施例的音乐文件的处理装置可以以各种形式来实施，如：由智能手机、平板电脑和台式机等终端单独实施，或者由终端、服务器协同实施。本公开实施例提供的音乐文件的处理装置可以实施为硬件、软件或者软硬件结合的方式，下面说明本公开实施例提供的音乐文件的处理装置的各种示例性实施。

下面对本公开实施例的音乐文件的处理装置的硬件结构做详细说明，图3为本公开实施例提供的音乐文件的处理装置的组成结构示意图，图3示出的装置组成仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图3所示，音乐文件的处理装置可以包括处理装置(例如中央处理器、图形处理器等)210，其可以根据存储在只读存储器(ROM，Read-Only Memory)220中的程序或者从存储装置280加载到随机访问存储器(RAM，Random Access Memory)230中的程序而执行各种适当的动作和处理。在RAM 230中，还存储有终端操作所需的各种程序和数据。处理装置210、ROM 220以及RAM 230通过总线240彼此相连。输入/输出(I/O，Input/Output)接口250也连接至总线240。

通常，以下装置可以连接至I/O接口250：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置260；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置270；包括例如磁带、硬盘等的存储装置280；以及通信装置290。通信装置290可以允许终端与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有的各种装置，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，所提供的流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，计算机程序可以通过通信装置290从网络上被下载和安装，或者从存储装置280被安装，或者从ROM220被安装。在计算机程序被处理装置210执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、射频(RF)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述终端中所包含的；也可以是单独存在，而未装配入终端中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该终端执行时，使得终端执行本公开实施例提供的上述音乐文件的处理方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)和广域网(WAN)，以连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

描述于本公开实施例中所涉及到的单元和/或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。

对于硬件的方式来说，实现本公开实施例的终端的单元和/或模块可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件实现，用于执行实现本公开实施例提供的方法。

图4为本公开实施例提供的音乐文件的处理方法的流程示意图，参见图4，本公开实施例的音乐文件的处理方法包括：

步骤401：终端采集针对目标音乐的第一人声数据。

在实际应用中，终端上设置有播放客户端，用户可基于播放客户端实现音乐播放及音乐录唱(如K歌)，当用户采用播放客户端所提供的音乐录唱功能进行歌曲录制时，相应的，播放客户端采集针对目标音乐的第一人声数据。例如，用户基于播放客户端所提供的K歌功能进行目标音乐“出山”的演唱时，播放客户端采集用户演唱的“出山”的人声数据。

步骤402：获取目标音乐对应的目标人声数据所采用的混响参数。

这里，目标音乐对应的目标人声数据，可以是目标音乐对应的源音乐文件中的人声数据(原唱人声数据)，或者是音乐家(或知名歌手)翻唱目标音乐的音乐文件中的人声数据。在实际应用中，该目标人声数据为在录音棚经过专业混音师(如格莱美混音师)精心调过的，经过专业混音后的人声混响能根据歌曲的意境需求，每一句或每一段调出不同的混响感，利用混响更好的表达情感和歌曲意境。

对目标人声数据的获取进行说明。在一些实施例中，可通过分离目标音乐对应的源音乐文件的方式获取目标人声数据，具体地，可通过如下方式获取目标人声数据：

获取目标音乐对应的源音乐文件，源音乐文件包括目标人声数据及伴奏数据；对源音乐文件进行人声伴奏分离，得到源音乐文件中的目标人声数据。

这里，可以通过训练得到的神经网络模型(如循环神经网络(RNN，Recu rrentNeural Network))实现音乐文件的人声伴奏分离，例如，将源音乐文件的音乐数据输入神经网络模型的输入层，经隐藏层，通过输出层输出分离得到目标人声数据及伴奏数据。在实际应用中，还可以通过信号处理的方式实现音乐文件的人声伴奏分离，例如，获取源音乐文件对应的音频信号，确定音频信号的音频信号波形，基于音频信号波形确定源音乐文件的音乐数据中的目标人声数据及伴奏数据。

在一些实施例中，还可通过从唱片公司获取授权的方式获得目标人声数据，例如，可通过如下方式获取目标人声数据：发送对应目标人声数据的获取请求给服务器，所述获取请求中携带对应目标人声数据的授权信息(如授权码/序列号)，接收返回的目标人声数据。

当然，在实际应用中，如果条件允许，还可以请专业音乐人士演唱该目标音乐并录制得到目标人声数据。

接下来对混响参数进行说明。在一些实施例中，混响参数可以为混响时间，即声音信号的能量衰减一定值(如60db)或衰减至设定阈值所需要的时间。在实际实施时，混响参数的数量可以为一个或多个，例如，混响参数的数量为多个，分别对应目标音乐的不同音乐分段，不同音乐分段的分段标准可以依据实际需要进行设定，如目标音乐中的每个语句作为一个音乐分段，再如，将目标音乐中的主歌作为一个分段、副歌作为一个分段。

在一些实施例中，混响参数包括目标音乐中每个字对应的混响时间，相应的，可通过如下方式获取目标音乐对应的目标人声数据所采用的混响参数：

获取目标人声数据所对应的文本内容中每个字所对应的声音信号，基于所获取的每个字所对应的声音信号，分别确定每个字对应的混响时间。

示例性地，采用信号处理方法(如Maximum Likelihood算法)估计出能量的衰减模型，如图5所示，图5为本公开实施例提供的目标音乐的声音信号衰减模型的示意图，通过分析每个字末尾的信号能量衰减(图6A为本公开实施例提供的目标音乐的信号衰减模型中一个字的信号衰减示意图，图6B为本公开实施例提供的对应信号衰减模型中一个字的信号衰减波形示意图)，进而计算出每个字对应的混响时间。

在一些实施例中，在确定目标音乐中每个字对应的混响时间之后，还可进一步对得到的多个混响时间数据进行平滑处理，以使混响时间的变化更连续。

在一些实施例中，混响参数包括目标音乐中每个语句对应的混响时间；相应的，可通过如下方式获取目标音乐对应的目标人声数据所采用的混响参数：

将目标人声数据所对应的文本内容划分为多个语句，确定每个语句的关键字，对目标人声数据所对应的声音信号进行处理，以确定每个关键字对应的混响时间，将每个关键字对应的混响时间作为所述语句对应的混响时间。

示例性地，每个语句的关键字为每个语句末尾的字，或者每个语句中后续静音最长的字，相应的，可采用静音检测的方式，获取目标音乐的每个语句的末尾字对应的混响时间，或者每个语句中后续静音最长的字对应的混响时间。

将目标人声数据所对应的文本内容划分为多个语句，对目标人声数据所对应的声音信号进行处理，以确定文本内容中每个字对应的混响时间，基于确定的每个字对应的混响时间，确定每个语句对应的混响时间。

这里，在实际实施时，在确定每个字对应的混响时间之后，可通过如下方式确定每个语句对应的混响时间：计算每个语句包括的字对应的混响时间的平均值，将计算得到的平均值作为该语句对应的混响时间；或者，获取每个语句包括的字所对应的权重(可依据实际情况预先设定)，采用加权求和的方式计算得到该语句对应的混响时间。

在一些实施例中，混响参数包括目标音乐的主歌部分对应的混响时间及副歌部分对应的混响时间；相应的，可通过如下方式获取目标音乐对应的目标人声数据所采用的混响参数：

基于目标音乐的结构特征，确定目标人声数据中的主歌部分及副歌部分，分别对主歌部分及副歌部分对应的声音信号进行处理，以确定主歌部分对应的混响时间及副歌部分对应的混响时间。

这里，一个音乐文件通常包括四部分：前奏内容、主歌内容、副歌内容和间奏内容；其中，前奏内容是指音乐文件的起始位置至开始播放歌词的内容，一首音乐包括至少一部分高潮的歌词，高潮的歌词往往会重复出现，音乐文件中的每部分高潮的内容为副歌内容，音乐文件开始播放歌词的位置至首次出现的副歌内容的起始位置之间的内容为主歌内容，音乐文件最后一个副歌内容的结束位置至音乐文件的结束位置之间的内容也为主歌内容，任意相邻两个副歌内容之间的内容为间奏内容。

在实际应用中，在确定目标人声数据中的主歌部分及副歌部分之后，既可基于主歌部分及副歌部分所包括的语句所对应的混响时间，分别确定主歌部分对应的混响时间及副歌部分对应的混响时间，也可以基于主歌部分及副歌部分所包括的各个字所对应的混响时间，分别确定主歌部分对应的混响时间及副歌部分对应的混响时间。

步骤403：基于混响参数，对第一人声数据进行处理，得到第二人声数据。

在一些实施例中，在得到目标人声数据所采用的混响参数之后，可通过如下方式对第一人声数据进行处理，得到第二人声数据：

获取至少一种混响模式所对应的混响参数，分别将目标人声数据所采用的混响参数，与所述至少一种混响模式所对应的混响参数进行匹配，得到匹配结果，基于匹配结果，确定至少一种混响模式中的目标混响模式，基于目标混响模式对第一人声数据进行处理，得到第二人声数据。

这里，在实际实施时，可预置多种混响模式(如KTV模式、演唱会模式等)，不同混响模式对应不同的混响效果，每种混响模式包括一个或多个混响时间参数，将标人声数据所采用的混响时间参数与预置的混响模式的混响时间参数进行相似度匹配，选取相似度最高的混响模式作为目标混响模式。

在一些实施例中，在得到目标人声数据所采用的混响参数之后，还可通过如下方式对第一人声数据进行处理，得到第二人声数据：

基于目标音乐的结构特征，确定第一人声数据中不同分段的人声数据，分别采用混响参数中对应不同分段的混响参数，对相应的人声数据进行混响处理，得到第二人声数据。

以混响参数中包括主歌部分的混响时间及副歌部分的混响时间为例，确定第一人声数据中主歌部分的人声数据及副歌部分的人声数据(如通过乐器数字接口(MIDI，Musical Instrument Digital Interface)信息确定)，采用混响参数中主歌部分的混响时间作为第一人声数据中主歌部分的人声数据的混响时间，采用混响参数中副歌部分的混响时间作为第一人声数据中副歌部分的人声数据的混响时间。

在一些实施例中，在得到第二人声数据之后，还可进一步基于目标数据的调节参数对第二人声数据进行处理，具体地，获取目标人声数据对应的调节参数，调节参数包括以下至少之一：音调、音色、响度、动态范围；基于获取的调节参数，对第二人声数据进行调整，从而在听感上达到和歌曲原唱类似的效果。

步骤404：将第二人声数据与目标音乐对应的伴奏数据进行合成，得到目标音乐文件。

在一些实施例中，在得到目标音乐文件之后，还可发布(上传)目标音乐文件。

应用本发明上述实施例，基于获取的目标人声数据所采用的混响参数，实现对用户录制的人声数据(第一人声数据)的自动混响处理，达到和歌曲原唱类似的混响效果，降低用户使用成本的同时，提高了混音效果。

图7为本公开实施例提供的音乐文件的处理方法的流程示意图，该音乐文件的处理方法可通过终端上设置的播放客户端实现，参见图7，本公开实施例的音乐文件的处理方法包括：

步骤501：播放客户端接收到用户触发的针对目标音乐的K歌指令。

这里，在实际应用中，用户可基于播放客户端的K歌界面点击针对目标音乐的K歌按键，进而触发针对目标音乐的K歌指令。

步骤502：播放客户端采集用户针对目标音乐的第一人声数据。

在实际实施时，播放客户端接收到针对目标音乐的K歌指令之后，加载目标音乐的伴奏数据，播放伴奏数据的同时采集(录制)用户针对目标音乐的人声数据(即第一人声数据)。

步骤503：播放客户端发送目标音乐的混响参数的获取请求给服务器。

在实际实施时，混响参数的获取请求中携带目标音乐的音乐标识(ID，Identification)。

目标音乐的混响参数，即为目标音乐对应的目标人声数据所采用的混响参数，在一些实施例中，混响参数包括目标音乐的主歌部分的混响时间及副歌部分的混响时间，对混响参数的详细说明可参见前述实施例，此处不做赘述。

步骤504：播放客户端接收服务器返回的目标音乐的混响参数。

步骤505：播放客户端采用目标音乐的混响参数对第一人声数据进行处理，得到第二人声数据。

以混响参数包括目标音乐的主歌部分的混响时间及副歌部分的混响时间为例，播放客户端采用目标音乐的主歌部分的混响时间作为第一人声数据中主歌部分的混响时间，采用目标音乐的副歌部分的混响时间作为第一人声数据中副歌部分的混响时间，对第一人声数据进行混响处理，得到第二人声数据。

步骤506：播放客户端将第二人声数据与目标音乐对应的伴奏数据进行合成，得到目标音乐文件。

步骤507：响应于接收到的用户触发的上传指令，播放客户端上传目标音乐文件。

这里，在实际应用中，在得到目标音乐文件后，上传目标音乐文件，以实现目标音乐文件的发布，当然，用户还可播放得到的目标音乐文件自我欣赏。

继续对本公开实施例提供的音乐文件的处理装置的软件实现进行说明。图8为本公开实施例提供的音乐文件的处理装置的组成结构示意图，参见图8，本公开实施例音乐文件的处理装置80包括：

采集单元81，用于采集针对目标音乐的第一人声数据；

获取单元82，用于获取所述目标音乐对应的目标人声数据所采用的混响参数；

处理单元83，用于基于所述混响参数，对所述第一人声数据进行处理，得到第二人声数据；

合成单元84，用于将所述第二人声数据与所述目标音乐对应的伴奏数据进行合成，得到目标音乐文件。

在一些实施例中，所述装置还包括播放单元85，用于播放得到的目标音乐文件；在一些实施例中，所述装置还包括上传单元86，用于上传得到的目标音乐文件。

在一些实施例中，所述混响参数包括所述目标音乐中每个字对应的混响时间；

在一些实施例中，所述混响参数包括所述目标音乐中每个语句对应的混响时间；

确定每个所述语句的关键字；

在一些实施例中，所述混响参数包括所述目标音乐的主歌部分对应的混响时间及副歌部分对应的混响时间；

在一些实施例中，所述处理单元，还用于获取至少一种混响模式所对应的混响参数；

在一些实施例中，所述处理单元，还用于基于所述目标音乐的结构特征，确定所述第一人声数据中不同分段的人声数据；

在一些实施例中，所述获取单元，还用于获取所述目标音乐对应的源音乐文件，所述源音乐文件包括所述目标人声数据；

在一些实施例中，所述获取单元，还用于发送对应所述目标人声数据的获取请求，所述获取请求中携带对应所述目标人声数据的授权信息；

接收返回的所述目标人声数据。

在一些实施例中，所述处理单元，还用于获取所述目标人声数据对应的调节参数，所述调节参数包括以下至少之一：音调、音色、响度、动态范围；

基于获取的所述调节参数，对所述第二人声数据进行调整。

这里需要指出的是：以上涉及音乐文件的处理装置的描述，与上述音乐文件的处理方法描述是类似的，同方法的有益效果描述，不做赘述。对于本公开所述音乐文件的处理装置实施例中未披露的技术细节，请参照本公开音乐文件的处理方法实施例的描述。

本公开实施例还提供了一种可读存储介质，存储介质可以包括：移动存储设备、随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。所述可读存储介质存储有可执行指令；

所述可执行指令，用于被处理器执行时实现本公开实施例提供的音乐文件的处理方法。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音乐文件的处理方法，其特征在于，所述方法包括：

采集针对目标音乐的第一人声数据；

获取所述目标音乐对应的目标人声数据所采用的至少一个混响参数，其中，所述混响参数与所述目标音乐中的音乐分段存在一一对应的关系，所述混响参数包括混响时间；

将所述目标人声数据所采用的混响时间，与所述至少一种混响模式中的混响时间进行相似度匹配，基于得到的匹配结果选取相似度最高的混响模式作为目标混响模式；

基于所述目标混响模式对所述第一人声数据进行混响处理，得到第二人声数据；

2.如权利要求1所述的方法，其特征在于，所述混响参数包括的混响时间是所述目标音乐中每个字对应的混响时间；

3.如权利要求1所述的方法，其特征在于，所述混响参数包括的混响时间是所述目标音乐中每个语句对应的混响时间；

将所述目标人声数据所对应的文本内容划分为多个语句；

确定每个所述语句的关键字；

4.如权利要求1所述的方法，其特征在于，所述混响参数包括的混响时间是所述目标音乐中每个语句对应的混响时间；

将所述目标人声数据所对应的文本内容划分为多个语句；

5.如权利要求1所述的方法，其特征在于，所述混响参数包括的混响时间是所述目标音乐的主歌部分对应的混响时间及副歌部分对应的混响时间；

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

接收返回的所述目标人声数据。

8.如权利要求1所述的方法，其特征在于，所述方法还包括：

基于获取的所述调节参数，对所述第二人声数据进行调整。

9.一种音乐文件的处理装置，其特征在于，所述装置包括：

采集单元，用于采集针对目标音乐的第一人声数据；

获取单元，用于获取所述目标音乐对应的目标人声数据所采用的至少一个混响参数，其中，所述混响参数与所述目标音乐中的音乐分段存在一一对应的关系，所述混响参数包括混响时间；

处理单元，用于将所述目标人声数据所采用的混响时间，与至少一种混响模式中的混响时间进行相似度匹配，基于得到的匹配结果选取相似度最高的混响模式作为目标混响模式；基于所述目标混响模式对所述第一人声数据进行混响处理，得到第二人声数据；

10.如权利要求9所述的装置，其特征在于，所述混响参数包括的混响时间是所述目标音乐中每个字对应的混响时间；

11.如权利要求9所述的装置，其特征在于，所述混响参数包括的混响时间是所述目标音乐中每个语句对应的混响时间；

确定每个所述语句的关键字；

12.如权利要求9所述的装置，其特征在于，所述混响参数包括的混响时间是所述目标音乐中每个语句对应的混响时间；

13.如权利要求9所述的装置，其特征在于，所述混响参数包括的混响时间是所述目标音乐的主歌部分对应的混响时间及副歌部分对应的混响时间；

14.如权利要求9所述的装置，其特征在于，

所述获取单元，还用于获取所述目标音乐对应的源音乐文件，所述源音乐文件包括所述目标人声数据；

15.如权利要求9所述的装置，其特征在于，

所述获取单元，还用于发送对应所述目标人声数据的获取请求，所述获取请求中携带对应所述目标人声数据的授权信息；

接收返回的所述目标人声数据。

16.如权利要求9所述的装置，其特征在于，

所述处理单元，还用于获取所述目标人声数据对应的调节参数，所述调节参数包括以下至少之一：音调、音色、响度、动态范围；

基于获取的所述调节参数，对所述第二人声数据进行调整。

17.一种终端，其特征在于，所述终端包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现如权利要求1至8任一项所述的音乐文件的处理方法。

18.一种非暂态存储介质，其特征在于，存储有可执行指令，所述可执行指令被执行时，用于实现权利要求1至8任一项所述的音乐文件的处理方法。