CN115188394B

CN115188394B - 混音方法、装置、电子设备和存储介质

Info

Publication number: CN115188394B
Application number: CN202210700556.6A
Authority: CN
Inventors: 苏文畅; 何旭峰; 王玮; 骆鹏鹏; 李全
Original assignee: Anhui Tingjian Technology Co ltd
Current assignee: Anhui Tingjian Technology Co ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2024-10-29
Anticipated expiration: 2042-06-20
Also published as: CN115188394A

Abstract

本发明提供一种混音方法、装置、电子设备和存储介质，其中方法包括：获取待混音的两路音频；基于基准音频的音频模型，确定所述两路音频中各音频段分别与所述基准音频之间的拟合度，所述音频模型基于基准音频在频域上的信噪比确定，所述基准音频包括噪声音频和/或人声音频；基于所述两路音频中各音频段分别与所述基准音频之间的拟合度，对所述两路音频进行混音。本发明实施例提供的混音方法、装置、电子设备和存储介质，基于拟合度对两路音频进行混音，能够实现更加准确的混音权重设置，避免了现有技术中根据经验设置混音权重带来的混音效果差的问题，使得混音后语音转写的效果更好。

Description

混音方法、装置、电子设备和存储介质

技术领域

本发明涉及音视频技术领域，尤其涉及一种混音方法、装置、电子设备和存储介质。

背景技术

当前在视频会议的场景中，用户需要同步进行系统音频以及麦克风音频的采集，并将此两路音频混音之后，可以同步进行实时语音转写或者在会议结束后进行离线文件转写。

目前常用的混音方法是将各路音频数据直接进行叠加并削峰，或根据经验值，人为设置各路音频在混音中的音量比重。

由于多方视频会议场景中，各路音频的音量采集等级可能不一致，以及存在环境噪音，根据经验值设置各路音频在混音中的音量比重，导致混音后的音频送去转写效果较差。

发明内容

本发明提供一种混音方法、装置、电子设备和存储介质，用以解决现有技术中混音后的音频送去转写效果较差的缺陷。

本发明提供一种混音方法，包括：

获取待混音的两路音频；

基于基准音频的音频模型，确定所述两路音频中各音频段分别与所述基准音频之间的拟合度，所述音频模型基于基准音频在频域上的信噪比确定，所述基准音频包括噪声音频和/或人声音频；

基于所述两路音频中各音频段分别与所述基准音频之间的拟合度，对所述两路音频进行混音。

根据本发明提供的一种混音方法，所述基于所述两路音频中各音频段分别与所述基准音频之间的拟合度，对所述两路音频进行混音，包括：

基于所述两路音频中对应同一时段的音频段分别与所述基准音频之间的拟合度，确定所述两路音频中各音频段的混音权重；

基于所述两路音频中各音频段的混音权重，对所述两路音频进行混音。

根据本发明提供的一种混音方法，所述基于所述两路音频中对应同一时段的音频段分别与所述基准音频之间的拟合度，确定所述两路音频中各音频段的混音权重，包括：

对所述两路音频中对应同一时段的音频段分别与一类基准音频之间的拟合度之和进行归一化，基于归一化后的拟合度确定对应同一时段的音频段的混音权重。

根据本发明提供的一种混音方法，所述基于所述两路音频中对应同一时段的音频段分别与所述基准音频之间的拟合度，确定所述两路音频中各音频段的混音权重，之前还包括：

在所述两路音频中对应同一时段的音频段中，存在一音频段与一类基准音频之间的拟合度，以及另一音频段与另一类基准音频之间的拟合度的情况下，将所述另一音频段与另一类基准音频之间的拟合度转换为所述另一音频段与所述一类基准音频之间的拟合度。

根据本发明提供的一种混音方法，所述基于所述两路音频中各音频段的混音权重，对所述两路音频进行混音，包括：

基于所述两路音频中各音频段的序号和混音权重，对所述两路音频分别进行编码，得到两路编码音频；

对所述两路编码音频进行混音。

根据本发明提供的一种混音方法，所述基于所述两路音频中各音频段的序号和混音权重，对所述两路音频分别进行编码，得到两路编码音频，包括：

基于所述两路音频中各音频段的序号和混音权重构建所述各音频段的帧头，将各音频段的帧头与各音频段分别拼接，得到各音频段的帧数据；

对所述两路音频中各音频段的帧数据分别进行拼接，得到所述两路编码音频。

根据本发明提供的一种混音方法，所述将各音频段的帧头与各音频段分别拼接，得到各音频段的帧数据，包括：

基于所述各音频段的帧头与各音频段，生成所述各音频段的校验码；

将所述各音频段的帧头、各音频段以及各音频段的校验码分别拼接，得到各音频段的帧数据。

根据本发明提供的一种混音方法，所述音频模型基于如下步骤确定：

确定基准音频对应的样本音频，并计算所述样本音频在频域上的信号能量；

基于所述信号能量，确定所述样本音频的人声功率和噪声功率；

基于所述样本音频的人声功率和噪声功率，确定所述样本音频的信噪比；

基于所述信噪比以及所述样本音频在频域上的信号能量，确定所述基准音频的音频模型。

本发明还提供一种混音装置，包括：

音频获取单元，用于获取待混音的两路音频；

拟合度确定单元，用于基于基准音频的音频模型，确定所述两路音频中各音频段分别与所述基准音频之间的拟合度，所述音频模型基于基准音频在频域上的信噪比确定，所述基准音频包括噪声音频和/或人声音频；

混音单元，用于基于所述两路音频中各音频段分别与所述基准音频之间的拟合度，对所述两路音频进行混音。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述混音方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述混音方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述混音方法。

本发明提供的混音方法、装置、电子设备和存储介质，基于基准音频的音频模型，确定两路音频中各音频段分别与基准音频之间的拟合度，然后基于两路音频中各音频段分别与基准音频之间的拟合度，对两路音频进行混音。基于拟合度对两路音频进行混音，能够实现更加准确的混音权重设置，避免了现有技术中根据经验设置混音权重带来的混音效果差的问题，使得混音后语音转写的效果更好。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的混音方法的流程示意图之一；

图2是本发明提供的混音方法中步骤130的流程示意图；

图3是本发明提供的混音方法的流程示意图之二；

图4是本发明提供的混音方法的流程示意图之三；

图5是本发明提供的混音方法的流程示意图之四；

图6是本发明提供的音频模型确定方法的流程示意图；

图7是本发明提供的混音装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前针对两路音频的混音，主要有以下5种技术方案：

1)直接数学相加并削峰：即多路音频直接按照数学运算进行对应位数相加，同时按照上下界进行削峰处理，防止数据越界。

2)平均调整权重法：将每一路的语音线性相加，再除以通道数，从而降低音频出现噪点的可能性。

3)归一化混音算法：各路音频全部乘以某个预置的系数因子，此处预置的系数一般为经验值，例如外录音频的系数取2，系统音频的系数取1，使幅值归一化，从而实现各路音频的权重区分。

4)自适应混音加权：使用可变的衰减因子对语音进行衰减，该衰减因子代表了语音的权重，衰减因子随着数据的变化而变化，当数据溢出时，则相应的使衰减因子变小，使后续的数据在衰减后处于临界值以内，没有溢出时，让衰减因子慢慢增大，使数据变化相对平滑。

5)自动对齐算法：考虑到各路音频的权重不同，人为设置各路音频占混音中的音量比重，从而实现对于不同音频的加权计算。

以上几种方案均是基于多声道的音频混合算法，对于普通场景，例如歌手录音、多路音乐混音等可满足需求。

然而对于远程视频会议场景，尤其是对于多方会议场景，上述混音算法均无法实现混音时的环境声以及人声的隔离，比如两方在会时，有一方在播放音乐，另外一方在发音，此时，进行混音后的音频可能得出的听感会变为嘈杂的音乐中夹杂一些人声，导致最后进行转写的效果较差，难以实现所听即所见的效果。

针对上述问题，本发明实施例提供一种混音方法，该方法可应用于需要对两路音频进行混音的场景，比如会议讨论场景、演讲场景、闹市场景等。混音方法可以由混音装置实现，该混音装置为程序模块，存储于终端的可读存储介质中，终端内的处理器可以调用该混音装置，以实现该混音方法。其中，终端可以为用户侧终端，例如智能手机、平板电脑等，也可以为服务侧终端，例如服务器。

图1是本发明提供的混音方法的流程示意图之一，如图1所示，该混音方法包括：

步骤110，获取待混音的两路音频。

具体地，混音装置可以获取待混音的两路音频，其中两路音频一路是指系统音频，即通过终端中的音频电路组件获取的音频，比如电脑播放的多媒体音频。例如在多方会议中，有一方可能在播放音乐，则可以通过音频电路组件直接获取到。另一路是指通过麦克风组件获取的音频。但由于周围环境中可能存在噪声，通过麦克风组件进行声音采集时，也会采集到噪音，例如，会议一方可能在闹市区，通过麦克风组件进行声音采集时，还可能采集到汽笛声、吆喝声等各种环境声音。

可以理解的是，两路音频中的一路是通过内录方式，直接由音频电路组件从终端内部获取到的，可能包含多媒体播放声音；而另一路通过外录方式，由麦克风对扬声器和周围环境中的声音进行录制得到的，可能包含多种环境噪音。在多方会议场景，多媒体播放声音和环境噪音均为外部无效音源，混音时无法将真实说话人声音与外部无线音源进行区分，导致混音质量较差。

此外，由于系统音频的音量采集等级与麦克风的音量采集等级可能不一致，会导致混音之后经常会出现只能听到系统声音或者只能听到麦克风声音的问题，从而导致混音后转写的效果较差。

步骤120，基于基准音频的音频模型，确定两路音频中各音频段分别与基准音频之间的拟合度，音频模型基于基准音频在频域上的信噪比确定，基准音频包括噪声音频和/或人声音频。

具体地，由于两路音频中包含的多媒体播放声音或环境噪音均可能导致混音后转写的效果较差，有必要在混音之前，对两路音频进行预处理，预处理可包括音频拆分和拟合度确定。首先对两路音频按照时间窗进行拆分，例如按照固定时长或者固定字节数进行拆分，得到各音频段。

得到两路音频中各音频段后，即可确定各音频段分别与基准音频之间的拟合度。此处的拟合度表征各音频段分别与基准音频之间的相似程度，拟合度越高，表征该音频段与基准音频之间相似程度越高；拟合度越低，表征该音频段与基准音频之间相似程度越低。

针对各音频段与基准音频之间拟合度的确定，可通过基准音频的音频模型实现，基准音频的音频模型可以是预先设置好的。基准音频的音频模型可反映基准音频的统计特性，具体可反映基准音频频谱中每个频点所对应的噪声和人声的分量，基准音频的音频模型可通过基准音频在频域上的信噪比确定。因此，音频模型能够体现基准音频在频域上的信噪比，由此将音频段输入到音频模型中，就可以实现信噪比上的拟合，从而判断两者之间的拟合度。

可以理解的是，拟合度越高，音频段与基准音频在频域上的信噪比的分布情况越接近，音频段的音频类型与基准音频实际的音频类型越相似。

其中，基准音频可包括噪声音频和/或人声音频，此处的噪声音频是指纯噪声音频，人声音频是指纯人声音频，可通过对带噪语音进行噪声和人声分离得到，例如可通过常用的降噪算法得到，本发明实施例对此不作具体限定。

例如，可将两路音频中各音频段分别输入噪声音频的音频模型，得到两路音频中各音频段分别与噪声音频之间的拟合度；还可将两路音频中各音频段分别输入人声音频的音频模型，得到两路音频中各音频段分别与人声音频之间的拟合度；还可将两路音频中部分音频段输入噪声音频的音频模型，部分音频段输入人声音频的音频模型，分别得到各音频段与噪声音频或人声音频的音频模型；还可以将两路音频中各音频段同时输入噪声音频的音频模型和人声音频的音频模型，得到两路音频中各音频段与噪声音频、以及各音频段与人声音频之间的拟合度。

步骤130，基于两路音频中各音频段分别与基准音频之间的拟合度，对两路音频进行混音。

具体地，得到两路音频中各音频段分别与基准音频之间的拟合度的基础上，即可对两路音频进行混音。期望得到的混音效果是人声音量尽可能大，噪声音量尽可能小，从而实现最佳的语音转写效果。

在一个实施例中，针对两路音频中的各音频段，与噪声音频的音频模型之间的拟合度较高的一路音频段，相比于与噪声音频的音频模型之间的拟合度较低的另一路音频段，在混音时可给予较低的权重；与之相反地，与人声音频的音频模型之间的拟合度较高的一路音频段，相比于与人声音频的音频模型之间的拟合度较低的另一路音频段，在混音时可给予较高的权重，由此得到的混音音频转写后的效果更好。

本发明实施例提供的方法，基于基准音频的音频模型，确定两路音频中各音频段分别与基准音频之间的拟合度，然后基于两路音频中各音频段分别与基准音频之间的拟合度，对两路音频进行混音。基于拟合度对两路音频进行混音，能够实现更加准确的混音权重设置，避免了现有技术中根据经验设置混音权重带来的混音效果差的问题，使得混音后语音转写的效果更好。

基于上述实施例，图2是本发明提供的混音方法中步骤130的流程示意图，如图2所示，步骤130具体包括：

步骤131，基于两路音频中对应同一时段的音频段分别与基准音频之间的拟合度，确定两路音频中各音频段的混音权重；

步骤132，基于两路音频中各音频段的混音权重，对两路音频进行混音。

具体地，两路音频中对应同一时段的音频段是指，将两路音频按照同一时间窗进行拆分，得到对应同一时段的各音频段。比如，音频段A对应一路音频中的第1-2分钟，音频段B对应另一路音频中的第1-2分钟，音频段A和音频段B对应同一时段。

得到两路音频中对应同一时段的音频段之后，可分别确定该对应同一时段的音频段与基准音频之间的拟合度。此处，各音频段可对应同一基准音频，也可对应不同的基准音频。比如，可分别确定音频段A和音频段B，与噪声音频之间的拟合度；也可分别确定音频段A和音频段B，与人声音频之间的拟合度；还可确定音频段A与人声音频之间的拟合度，音频段B与噪声音频之间的拟合度；还可确定音频段A与噪声音频之间的拟合度，音频段B与人声音频之间的拟合度，本发明实施例对此不作具体限定。

得到对应同一时段的音频段分别与基准音频之间的拟合度之后，即可确定两路音频中各音频段的混音权重，比如采用比例法或归一化法，确定两路音频中各音频段的混音权重。

例如，音频段A与人声音频之间的拟合度是0.8，音频段B与人声音频之间的拟合度是0.4，可根据比例法，得到两路音频混音时，音频段A的混音权重是2/3，音频段B的混音权重是1/3。

再例如，音频段A与噪声音频之间的拟合度是0.8，音频段B与噪声音频之间的拟合度是0.4，可根据比例法，得到两路音频混音时，音频段A的混音权重是1/3，音频段B的混音权重是2/3。

得到两路音频中各音频段的混音权重之后，随即对两路音频进行混音，例如通过对两路音频的响度进行加权求和实现混音。

基于上述任一实施例，步骤131具体包括：

对两路音频中对应同一时段的音频段分别与一类基准音频之间的拟合度之和进行归一化，基于归一化后的拟合度确定对应同一时段的音频段的混音权重。

具体地，为了使得混音后音频听觉效果更好，可使混音后音频的响度总大小始终等于两路音频的响度平均值，从而实现在加权计算的场景下，还能保持两路音频的响度。

通过对两路音频中对应同一时段的音频段分别与一类基准音频之间的拟合度之和进行归一化，基于归一化后的拟合度确定对应同一时段的音频段的混音权重。此处，一类基准音频是指，基准音频要么是噪声音频，要么是人声音频。换言之，即对两路音频中对应同一时段的音频段分别与噪声音频之间的拟合度之和进行归一化，或者对两路音频中对应同一时段的音频段分别与人声音频之间的拟合度之和进行归一化。

例如，音频段A与人声音频之间的拟合度是0.8，音频段B与人声音频之间的拟合度是0.4，对拟合度之和进行归一化，得到音频段A与人声音频之间的拟合度是0.67，音频段B与人声音频之间的拟合度是0.33，由于此处一类基准音频是人声音频，则可确定音频段A的混音权重是0.67，音频段B的混音权重是0.33。

需要说明的是，如果此处一类基准音频是噪声音频，在音频段A与噪声音频之间的拟合度是0.8，音频段B与噪声音频之间的拟合度是0.4的情况下，可确定音频段A的混音权重是0.33，音频段B的混音权重是0.67。

本发明实施例提供的方法，对两路音频中对应同一时段的音频段分别与一类基准音频之间的拟合度之和进行归一化，基于归一化后的拟合度确定对应同一时段的音频段的混音权重，可使混音后音频的响度总大小始终等于两路音频的响度平均值，从而实现在加权计算的场景下，还能保持两路音频的响度，从而提升转写效果。

基于上述任一实施例，步骤131之前还包括：

在两路音频中对应同一时段的音频段中，存在一音频段与一类基准音频之间的拟合度，以及另一音频段与另一类基准音频之间的拟合度的情况下，将另一音频段与另一类基准音频之间的拟合度转换为另一音频段与一类基准音频之间的拟合度。

具体地，考虑到在两路音频中对应同一时段的音频段中，存在一音频段与一类基准音频之间的拟合度，以及另一音频段与另一类基准音频之间的拟合度的情况，可将另一音频段与另一类基准音频之间的拟合度转换为另一音频段与一类基准音频之间的拟合度。

举例而言，有可能存在得到音频段A与噪声音频之间的拟合度，音频段B与人声音频之间的拟合度的情况，此时为了更准确的进行权重计算，可将音频段B与人声音频之间的拟合度转换为音频段B与噪声音频之间的拟合度，或者将音频段A与噪声音频之间的拟合度转换为音频段A与人声音频之间的拟合度。

拟合度转换可通过将拟合度之和归一化的方法实现，假设任一音频段中只包括噪声和人声，进一步可认为任一音频段与一类基准音频之间的拟合度，以及与另一类基准音频之间的拟合度之和为1，则任一音频段与一类基准音频之间的拟合度等于1减去该音频段与另一类基准音频之间的拟合度。

例如，音频段A与人声音频之间的拟合度是0.8，音频段B与噪声音频之间的拟合度是0.6，则可将音频段A与人声音频之间的拟合度转换成音频段A与噪声音频之间的拟合度，且转换后的拟合度为0.2；还可将音频段B与噪声音频之间的拟合度转换成音频段B与人声音频之间的拟合度，且转换后的拟合度为0.4。

基于上述任一实施例，图3是本发明提供的混音方法的流程示意图之二，如图3所示，步骤132具体包括：

步骤132-1，基于两路音频中各音频段的序号和混音权重，对两路音频分别进行编码，得到两路编码音频；

步骤132-2，对两路编码音频进行混音。

具体地，对两路音频进行混音，可通过基于两路音频中各音频段的序号和混音权重，对两路音频分别进行编码，得到两路编码音频，对两路编码音频进行混音实现。

其中，各音频段的序号是指对两路音频按照时间窗进行划分时，得到的序号。通常，序号从0开始，依次向上递增，例如针对任一路音频，各音频段的序号依次为0，1，2，3……。

混音权重即采用上述任一实施例所述方法得到的各音频段的混音权重，每一个音频段均携带该音频段对应的混音权重。对任意一路音频进行编码可采用脉冲调制编码(Pulse-Code Modulation，PCM)方法进行编码，例如编码后可展示为表1所示的形式，该路音频包括4段音频段，每一段音频段均编码为PCM数据。可理解的是，当该路音频包括4段以上更多音频段的情况下，可按照如下形式顺次往后进行编码。

表1

对每一路音频分别编码后，得到两路编码音频，由于两路编码音频中的各音频段分别携带了各自音频段对应的混音权重，即可在此基础上对两路编码音频进行混音。

基于上述任一实施例，图4是本发明提供的混音方法的流程示意图之三，如图4所示，步骤132-1具体包括：

步骤132-11，基于两路音频中各音频段的序号和混音权重构建各音频段的帧头，将各音频段的帧头与各音频段分别拼接，得到各音频段的帧数据；

步骤132-12，对两路音频中各音频段的帧数据分别进行拼接，得到两路编码音频。

具体地，对两路音频分别进行编码，可通过首先基于两路音频中各音频段的序号和混音权重构建各音频段的帧头，随即将各音频段的帧头与各音频段分别拼接，得到各音频段的帧数据实现。

例如，其中一路编码音频可展示为表2所示的形式。其中每一个音频段的帧数据包括帧头和音频段，帧头携带各音频段的序号和混音权重。

表2

帧头0+音频段0

帧头1+音频段1

帧头2+音频段2

帧头3+音频段3

基于上述任一实施例，图5是本发明提供的混音方法的流程示意图之四，如图5所示，步骤132-11中将各音频段的帧头与各音频段分别拼接，得到各音频段的帧数据，包括：

步骤132-111，基于各音频段的帧头与各音频段，生成各音频段的校验码；

步骤132-112，将各音频段的帧头、各音频段以及各音频段的校验码分别拼接，得到各音频段的帧数据。

具体地，考虑到将各音频段的帧头与各音频段分别拼接的过程中，数据传输或保存后可能存在错误，因此，可首先基于各音频段的帧头与各音频段，生成各音频段的校验码。得到校验码的基础上，即可将各音频段的帧头、各音频段以及各音频段的校验码分别拼接，得到各音频段的帧数据。

例如，其中一路编码音频可展示为表3所示的形式。其中每一个音频段的帧数据依次包括帧头、音频段和校验码，帧头携带各音频段的序号和混音权重信息。

表3

进一步地，校验码可采用循环冗余校验(Cyclic Redundancy Check，CRC)技术实现，CRC是一种根据网络数据包或计算机文件等数据产生简短固定位数校验码的一种信道编码技术，主要用来检测或校验数据传输或者保存后可能出现的错误，长度为4个字节。

例如，将待混音的两路音频按照时间窗拆分成各个音频段之后，申请一个新的内存空间，先将第0个音频段的帧头写入，之后将第0个音频段的PCM数据写入，最后将基于帧头和音频段生成的CRC检验和写入，循环执行此操作，直到两路音频分别处理完成。在两路音频混音时，可对各音频段的CRC检验和进行验证，如果CRC检验和验证不通过，说明混音过程中出现了差错，需要重新进行混音。

本发明实施例提供的方法，基于帧头、音频段和校验码的形式构建各音频段的帧数据，然后对两路音频中各音频段的帧数据分别进行拼接，得到两路编码音频，该编码方式对齐了两路音频，降低了混音的难度，进一步提高了混音后音频的转写效果。

基于上述任一实施例，图6是本发明提供的音频模型确定方法的流程示意图，如图6所示，基准音频的音频模型基于如下步骤确定：

步骤610，确定基准音频对应的样本音频，并计算样本音频在频域上的信号能量；

步骤620，基于信号能量，确定样本音频的人声功率和噪声功率；

步骤630，基于样本音频的人声功率和噪声功率，确定样本音频的信噪比；

步骤640，基于信噪比以及样本音频在频域上的信号能量，确定基准音频的音频模型。

具体地，考虑到不容易获取纯净的基准音频，可对样本音频进行降噪处理，得到基准音频。此处的样本音频均为带噪语音，基准音频对应的样本音频即噪声音频对应的样本噪声音频，或人声音频对应的样本人声音频。样本噪声音频是指噪声音量大于人声音量的音频，样本人声音频是指人声音量大于噪声音量的音频。此处的样本音频可以是各样本音频段。

以基准音频是噪声音频为例，则基准音频对应的样本音频是样本噪声音频，首先对样本噪声音频的时域信号做短时傅里叶变换，就得到了该样本噪声音频的频域表现形式，之后再对幅度谱平方得到信号能量。

在计算了样本噪声音频的幅度谱后，借助语音端点检测(Voice ActivityDetection，VAD)模块的结果进行噪声谱的估计，由计算出的人声功率谱和估计出的噪声谱来计算先验信噪比。

再将先验信噪比经过变换得到增益函数，将计算得到的增益函数乘以带噪语音的频域形式，即样本噪声音频的频域形式。

对频域形式进行统计，即可以得到基准音频的音频模型，即噪声音频的音频模型。

同样地，基准音频是人声音频时，则基准音频对应的样本音频是样本人声音频，对样本人声音频进行上述同样步骤的降噪处理，得到人声音频的音频模型。

下面以一个具体的例子，描述基准音频的音频模型构建方法：

以两方会议，其中一方为闹市区为例，样本音频为未经处理的两路音频，且音频格式均为16K 16Bit单声道音频，分别为A音频和B音频。

先将A音频和B音频按照时间窗，比如按一固定时长或者固定字节数进行拆分，即将音频数据进行按位拆解，一般40ms一个语音段，即1280个字节为一个语音段。

按照以上的时间窗进行音频的拆分，可以得到不同时间窗的语音段，假设第一分钟到第二分钟之间，A音频为闹市声音大且音量大于B音频的声音，则A音频可作为噪声音频对应的样本音频，对A音频执行上述步骤610-640，即可得到A音频在第一分钟到第二分钟之间的噪声音频的音频模型。

针对B音频，假设说话人在第一分钟到第二分钟之间进行了说话，则B音频可作为人声音频对应的样本音频，对B音频执行上述步骤610-640，即可得到B音频在第一分钟到第二分钟之间的人声音频的音频模型。

基于上述任一实施例，本发明实施例提供一种混音方法，包括：

S1，对于当前已有的音频场景，进行音频的梳理、统计，按照场景、类型、人声等进行不同维度以及类型的梳理，从而整理出基准音频对应的样本音频。此处的音频场景可包括会议讨论场景、演讲场景和闹市场景等。

S2，对于S1中整理出来的样本音频，进行人为校准，并且基于以上场景进行音频噪音场景建模，得到基准音频的音频模型。

S3，获取待混音的两路音频，两路音频的时长一致，均为16k 16bit单声道PCM数据。

S4，基于基准音频的音频模型，确定两路音频中各音频段分别与基准音频之间的拟合度。

S5，对两路音频中对应同一时段的音频段分别与一类基准音频之间的拟合度之和进行归一化，基于归一化后的拟合度确定对应同一时段的音频段的混音权重。

S6，基于对应同一时段的音频段的混音权重，对两路音频进行混音。其中S6包括：

S61，将各音频段的帧头、各音频段以及各音频段的校验码分别拼接，得到各音频段的帧数据。其中，帧头包括：帧头分隔符、帧序号、帧长度、音频段长度和混音权重。帧头分隔符为固定字符，帧序号为累加计算，帧长度为计算而得，音频段长度也为计算而得，混音权重是基于基准音频的音频模型拟合得到的。

帧头分隔符：使用0xFFAA0055作为两帧之间分隔符，表示当前帧与上一帧的分隔标志，长度为四个字节。

帧序号：初始帧序号从0开始，依次向上递增，表示帧在编码音频中的序列，长度为4个字节。

帧长度：标识该帧数据的总大小，包含帧头数据的大小和帧内音频段的大小，长度为4个字节。

音频段长度：用于标记该帧中纯音频数据的大小，便于得到PCM音频数据，长度为4个字节。

混音权重：表示该帧的噪音比重或人声比重，使用int表示，范围为0～100，在混音时，通过此参数进行加权计算，从而实现不同音轨的混音，长度为4个字节。

S62，对两路音频中各音频段的帧数据分别进行拼接，得到两路编码音频。

S63，对两路编码音频进行混音。

下面对本发明提供的混音装置进行描述，下文描述的混音装置与上文描述的混音方法可相互对应参照。

基于上述任一实施例，图7是本发明提供的混音装置的结构示意图，如图7所示，该装置包括：

音频获取单元710，用于获取待混音的两路音频；

拟合度确定单元720，用于基于基准音频的音频模型，确定所述两路音频中各音频段分别与所述基准音频之间的拟合度，所述音频模型基于基准音频在频域上的信噪比确定，所述基准音频包括噪声音频和/或人声音频；

混音单元730，用于基于所述两路音频中各音频段分别与所述基准音频之间的拟合度，对所述两路音频进行混音。

本发明实施例提供的混音装置，基于基准音频的音频模型，确定两路音频中各音频段分别与基准音频之间的拟合度，然后基于两路音频中各音频段分别与基准音频之间的拟合度，对两路音频进行混音。基于拟合度对两路音频进行混音，能够实现准确可靠的混音权重设置，避免了现有技术中根据经验设置混音权重带来的混音效果差的问题，使得混音后语音转写的效果更好。

基于上述任一实施例，混音单元730进一步用于：

基于上述任一实施例，混音装置还包括拟合度转换单元，用于：

基于上述任一实施例，混音单元730进一步用于：

对所述两路编码音频进行混音。

基于上述任一实施例，混音单元730进一步用于：

基于上述任一实施例，混音装置还包括音频模型确定单元，用于：

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行混音方法，该方法包括：获取待混音的两路音频；基于基准音频的音频模型，确定所述两路音频中各音频段分别与所述基准音频之间的拟合度，所述音频模型基于基准音频在频域上的信噪比确定，所述基准音频包括噪声音频和/或人声音频；基于所述两路音频中各音频段分别与所述基准音频之间的拟合度，对所述两路音频进行混音。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的混音方法，该方法包括：获取待混音的两路音频；基于基准音频的音频模型，确定所述两路音频中各音频段分别与所述基准音频之间的拟合度，所述音频模型基于基准音频在频域上的信噪比确定，所述基准音频包括噪声音频和/或人声音频；基于所述两路音频中各音频段分别与所述基准音频之间的拟合度，对所述两路音频进行混音。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的混音方法，该方法包括：获取待混音的两路音频；基于基准音频的音频模型，确定所述两路音频中各音频段分别与所述基准音频之间的拟合度，所述音频模型基于基准音频在频域上的信噪比确定，所述基准音频包括噪声音频和/或人声音频；基于所述两路音频中各音频段分别与所述基准音频之间的拟合度，对所述两路音频进行混音。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种混音方法，其特征在于，包括：

获取待混音的两路音频；

2.根据权利要求1所述的混音方法，其特征在于，所述基于所述两路音频中对应同一时段的音频段分别与所述基准音频之间的拟合度，确定所述两路音频中各音频段的混音权重，包括：

3.根据权利要求1所述的混音方法，其特征在于，所述基于所述两路音频中对应同一时段的音频段分别与所述基准音频之间的拟合度，确定所述两路音频中各音频段的混音权重，之前还包括：

在所述两路音频中对应同一时段的音频段中，存在一音频段与一类基准音频之间的拟合度，以及另一音频段与另一类基准音频之间的拟合度的情况下，将所述另一音频段与另一类基准音频之间的拟合度转换为所述另一音频段与所述一类基准音频之间的拟合度；

若所述一类基准音频为噪声音频，则所述另一类基准音频为人声音频；若所述一类基准音频为人声音频，则所述另一类基准音频为噪声音频。

4.根据权利要求1所述的混音方法，其特征在于，所述基于所述两路音频中各音频段的混音权重，对所述两路音频进行混音，包括：

对所述两路编码音频进行混音。

5.根据权利要求4所述的混音方法，其特征在于，所述基于所述两路音频中各音频段的序号和混音权重，对所述两路音频分别进行编码，得到两路编码音频，包括：

6.根据权利要求5所述的混音方法，其特征在于，所述将各音频段的帧头与各音频段分别拼接，得到各音频段的帧数据，包括：

7.根据权利要求1-6任一项所述的混音方法，其特征在于，所述音频模型基于如下步骤确定：

8.一种混音装置，其特征在于，包括：

音频获取单元，用于获取待混音的两路音频；

混音单元，用于基于所述两路音频中对应同一时段的音频段分别与所述基准音频之间的拟合度，确定所述两路音频中各音频段的混音权重；基于所述两路音频中各音频段的混音权重，对所述两路音频进行混音。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述混音方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述混音方法。