CN113284500B

CN113284500B - 音频处理方法、装置、电子设备及存储介质

Info

Publication number: CN113284500B
Application number: CN202110547910.1A
Authority: CN
Inventors: 林俊潜; 谢静贤
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2024-02-06
Anticipated expiration: 2041-05-19
Also published as: CN113284500A

Abstract

本申请公开了一种音频处理方法、装置、电子设备及存储介质，该音频处理方法，应用于音频传输中的第一电子设备，所述第一电子设备与所述音频传输中的第二电子设备连接，所述方法包括：接收所述第二电子设备在所述音频传输的过程中发送的第一音频数据，其中，所述第一音频数据为所述第二电子设备根据第一声纹信息，对所述音频传输的过程中采集到的音频数据进行人声增强处理后得到的音频数据；基于存储的所述第一声纹信息，对所述第一音频数据进行人声增强处理；对人声增强处理后的所述第一音频数据进行播放。本方法可以方便用户听清音频传输场景中的人声。

Description

音频处理方法、装置、电子设备及存储介质

技术领域

本申请涉及音频处理技术领域，更具体地，涉及一种音频处理方法、装置、电子设备及存储介质。

背景技术

随着科技水平和生活水平的快速进步，电子设备(例如智能手机、平板电脑等)被人们广泛使用，并且越来越多的用户通过电子设备进行视频通话、语音通话、观看视频直播等使用场景。在这些使用场景中，会出现数据发送端所处环境比较嘈杂的情况，导致接收端播放发送端采集的音频后，用户无法听清发送端对应的用户的声音，严重影响了用户体验。

发明内容

鉴于上述问题，本申请提出了一种音频处理方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种音频处理方法，应用于音频传输中的第一电子设备，所述第一电子设备与所述音频传输中的第二电子设备连接，所述方法包括：接收所述第二电子设备在所述音频传输的过程中发送的第一音频数据，其中，所述第一音频数据为所述第二电子设备根据第一声纹信息，对所述音频传输的过程中采集到的音频数据进行人声增强处理后得到的音频数据；基于存储的所述第一声纹信息，对所述第一音频数据进行人声增强处理；对人声增强处理后的所述第一音频数据进行播放。

第二方面，本申请实施例提供了一种音频处理装置，应用于音频传输中的第一电子设备，所述第一电子设备与所述音频传输中的第二电子设备连接，所述装置包括：音频接收模块、人声增强模块以及音频播放模块，其中，所述音频接收模块用于接收所述第二电子设备在所述音频传输的过程中发送的第一音频数据，其中，所述第一音频数据为所述第二电子设备根据第一声纹信息，对所述音频传输的过程中采集到的音频数据进行人声增强处理后得到的音频数据；所述人声增强模块用于基于存储的所述第一声纹信息，对所述第一音频数据进行人声增强处理；所述音频播放模块用于对人声增强处理后的所述第一音频数据进行播放。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述第一方面提供的音频处理方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述第一方面提供的音频处理方法。

本申请提供的方案，通过接收第二电子设备在音频传输的过程中发送的第一音频数据，该第一音频数据为第二电子设备根据第一声纹信息，对音频传输的过程中采集到的音频数据进行人声增强处理后得到的音频数据，然后基于存储的第一声纹信息，对第一音频数据进行人声增强处理，对进行人声增强处理后的第一音频数据进行播放，从而可以实现音频传输的发送端对采集的音频数据进行人声增强处理的同时，接收端也对接收到的音频数据再次进行人声增强处理，从而使得播放的音频中能够突出人声，方便用户听清发送端对应的用户的声音。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的应用环境的一种示意图。

图2示出了本申请实施例提供的应用环境的另一种示意图。

图3示出了根据本申请一个实施例的音频处理方法流程图。

图4示出了根据本申请另一个实施例的音频处理方法流程图。

图5示出了本申请另一个实施例提供的一种界面示意图。

图6示出了本申请另一个实施例提供的另一种界面示意图。

图7示出了根据本申请又一个实施例的音频处理方法流程图。

图8示出了本申请另一个实施例提供的一种界面示意图。

图9示出了本申请另一个实施例提供的一种界面示意图。

图10示出了本申请另一个实施例提供的一种界面示意图。

图11示出了本申请另一个实施例提供的一种界面示意图。

图12示出了本申请另一个实施例提供的一种界面示意图。

图13示出了本申请另一个实施例提供的一种界面示意图。

图14示出了本申请另一个实施例提供的一种界面示意图。

图15示出了本申请另一个实施例提供的一种界面示意图。

图16示出了本申请另一个实施例提供的一种界面示意图。

图17示出了根据本申请一个实施例的音频处理装置的一种框图。

图18是本申请实施例的用于执行根据本申请实施例的音频处理方法的电子设备的框图。

图19是本申请实施例的用于保存或者携带实现根据本申请实施例的音频处理方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

目前，随着科技水平和生活水平的快速进步，电子设备的功能越来越多，用户可以使用电子设备来实现各种需求。在人们对电子设备的日常使用中，会经常通过电子设备进行视频通话、语音通话、观看视频直播等使用场景，这些使用场景中均会对采集的音频数据进行传输，以便使音频传输的接收端对接收的音频数据播放后，接收端的用户能够获取到发送端的用户想要传递的信息。

发明人经过长时间的研究发现，音频传输场景中，发送端采集的声音中通常包含的声音种类较多，如包含各玩家说话的声音、应用程序本身的声音以及移动终端所处环境中的其他声音等，由于声音比较复杂，会造成导致接收端播放发送端采集的音频后，用户无法听清发送端对应的用户的声音，严重影响了用户体验。

针对上述问题，发明人提出了本申请实施例提供的音频处理方法、装置、电子设备以及存储介质，可以实现音频传输的发送端对采集的音频数据进行人声增强处理的同时，接收端也对接收到的音频数据再次进行人声增强处理，从而使得播放的音频中能够突出人声，方便用户听清发送端对应的用户的声音，提升用户体验。其中，具体的音频处理方法在后续的实施例中进行详细的说明。

下面对本申请实施例中的音频处理方法的应用环境进行介绍。

图1示出了本申请实施例提供的音频处理方法的应用环境的一种示意图，参见图1，该实施环境中包括第一电子设备10、第二电子设备20以及服务器30。第一电子设备10以及第二电子设备20通过无线网络或有线网络与服务器30相连，服务器30与第一电子设备10以及第二电子设备20之间能够进行数据交互，从而第一电子设备10与第二电子设备20可以通过服务器30进行通信。

可选地，服务器30可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。

可选地，第一电子设备10以及第二电子设备20可以为移动终端(例如，智能手机、平板电脑、智能手表、智能手环等)、笔记本电脑、PC电脑、服务器等，但并不局限于此。本领域技术人员可以知晓，上述应用环境中电子设备的数量可以更多或者更少，比如上述电子设备仅为2个(包括第一电子设备10和第二电子设备20)，或者上述电子设备为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他电子设备。本申请实施例对电子设备的数量和设备类型不加以限定。

在一些实施方式中，第一电子设备10以及第二电子设备20可以是用户所使用的设备，该第一电子设备10以及第二电子设备20可以根据用户的操作进行音频传输的使用场景，例如语音通话、视频通话、视频直播、语音直播等场景。在进行音频传输的过程中，第一电子设备以及第二电子设备可以对采集到的用于传输至对方的音频数据以及接收到的音频数据进行人声增强处理，从而使得音频数据在发送端和接收端均被进行人声增强，从而可以使得播放的音频中能够较好地突出人声。

图2示出了本申请实施例提供的音频处理方法的应用环境的另一种示意图，参见图2，该实施环境中包括多个电子设备100(图中仅示出2个)、管理服务器200以及信令服务器300，电子设备100可以与管理服务器以及信令服务器进行通信，已完成数据交互。另外，管理服务器200与信令服务器300之间进行通信。管理服务器200作为音频传输场景的服务平台的服务器，可以用于为电子设备100提供音频传输时的服务；信令服务器300可以用于建立电子设备100之间的网络实时通信，以完成电子设备100之间的数据交互。其中，网络实时通信即WebRTC，WebRTC是google公司力推的一个开源项目，旨在给浏览器与手机的web应用提供简单的JavaScript接口，使其具备RTC(Real-Time Communications)实时通信能力。

在一些实施方式中，电子设备100之间在进行音频传输之前，可以通过管理服务器200以及信令服务器300建立两者之间的WebRTC的通信连接，而WebRTC的通信连接为P2P(端到端，peer to peer lending)连接，因此保证了两者之间通信的实时性，进而保证音频传输时的实时性。同样的，在进行音频传输的过程中，电子设备可以对采集到的用于传输至对方的音频数据以及接收到的音频数据进行人声增强处理，从而使得音频数据在发送端和接收端均被进行人声增强，从而可以使得播放的音频中能够较好地突出人声。

请参阅图3，图3示出了本申请一个实施例提供的音频处理方法的流程示意图。在具体的实施例中，所述音频处理方法应用于第一电子设备，第一电子设备与音频传输中的第二电子设备连接。下面将针对图3所示的流程进行详细的阐述，所述音频处理方法具体可以包括以下步骤：

步骤S110：接收第二电子设备在所述音频传输的过程中发送的第一音频数据，其中，所述第一音频数据为所述第二电子设备根据第一声纹信息，对所述音频传输的过程中采集到的音频数据进行人声增强处理后得到的音频数据。

第一电子设备与第二电子设备之间的音频传输可以是语音通话场景、视频通话场景、语音直播场景、视频直播场景等场景中的音频传输，本申请实施例中的音频传输所应用的具体场景可以不做限定。

在本申请实施例中，第一电子设备与第二电子设备进行音频传输的过程中，第二电子设备在将采集到的音频数据传输至第一电子设备之前，可以根据第一声纹信息，对采集到的音频数据进行人声增强处理，然后将人声增强处理后的第一音频数据发送至第一电子设备。相应的，第一电子设备可以接收到第二电子设备发送的音频数据。人声增强处理指的是对音频数据中的人声进行增强，以使人声在音频数据被播放时能够突出，从而方便用户听清播放音频中的人声。

在一些实施方式中，第一声纹信息可以是针对需要进行人声增强的用户声音所设置的声纹信息，并存储于第二电子设备，以便第二电子设备对采集到的音频数据中相应的人声，进行人声增强处理。第一声纹信息可以是第二电子设备的用户预先录入的，也可以是音频传输过程中实时采集的声纹信息。

在一些实施方式中，第一声纹信息中可以包括一个用户的声纹信息，也可以包括多个用户的声纹信息。在第一声纹信息包括一个用户的声纹信息时，则在音频传输过程中，第二电子设备针对该声纹信息对应的用户声音进行人声增强处理；在第一声纹信息包括多个用户的声纹信息时，则在音频传输过程中，第二电子设备针对这些声纹信息对应的多个用户的声音进行人声增强处理。第一声纹信息的具体选择和设置可以根据实际的场景以及用户的需求所设置，例如，用户之间进行一对一的私密通话时，则第一声纹信息中可以只包括一个用户的声纹信息，又例如，在进行远程视频会议时，若多个用户同处于一个会议场景，则第一声纹信息可以包括该多个用户的声纹信息。

步骤S120：基于存储的所述第一声纹信息，对所述第一音频数据进行人声增强处理。

在本申请实施例中，第一电子设备中同样可以存储有以上第一声纹信息，以便第一电子设备在接收到第二电子设备发送的第一音频数据后，可以利用第一声纹信息，对接收到的第一音频数据再次进行人声增强处理。

在一些实施方式中，第一电子设备基于第一声纹信息，对第一音频数据进行人声增强处理，可以是根据第一声纹信息，对第一音频数据中与第一声纹信息对应的人声进行增强，以突出第一声纹信息对应的人声。

步骤S130：对人声增强处理后的所述第一音频数据进行播放。

在本申请实施例中，第一电子设备在对接收到的第一音频数据进行人声增强处理后，则可以将人声增强处理后的第一音频数据，通过音频输出单元进行播放，从而可以使用户听到播放的音频。

本申请实施例提供的音频处理方法中，由于第一音频数据在发送端以及接收端均被进行了人声增强处理，使得人声被双重增强，因此可以突出第一声纹信息对应的人声，从而可以便于用户听清对方的声音。

请参阅图4，图4示出了本申请另一个实施例提供的音频处理方法的流程示意图。该音频处理方法应用于第一电子设备，第一电子设备与音频传输中的第二电子设备连接，下面将针对图4所示的流程进行详细的阐述，所述音频处理方法具体可以包括以下步骤：

步骤S210：响应于对所述人声增强处理的开启操作，开启所述人声增强处理，以对接收到的音频数据进行人声增强处理。

在本申请实施例中，第一电子设备可以检测用户的控制操作，以在检测到对人声增强处理的开启操作时，开启人声增强处理，从而可以对接收到的音频数据进行人声增强处理。

在一些实施方式中，第一电子设备可以显示音频传输的控制界面，所述控制界面中包括用于控制所述人声增强处理的开启的第一控件；响应于针对所述第一控件的开启操作，开启所述人声增强处理，以对接收到的音频数据进行人声增强处理。

在该实施方式中，第一电子设备可以显示音频传输的控制界面，该控制界面用于对音频传输进行控制，以满足用户对音频传输的控制需求。其中，该控制界面中可以至少包括用于控制人声增强处理的开启的第一控件，从而可以供用户根据其需求，是否开启对接收到的音频数据的人声增强处理。当第一电子设备检测到对第一控件的开启操作，则可以开启人声增强处理。

在一种可能的实施方式中，对第一控件的开启操作，可以为对第一控件的点击操作、满足预设按压条件的按压操作、满足预设滑动条件的滑动操作等，具体的开启操作可以不做限定。其中，预设按压条件可以包括以下条件中至少一种：按压操作对应的按压时长大于第一时长；按压操作对应的按压面积大于预设面积；按压操作对应的按压压力值大于预设压力值。预设滑动条件可以包括以下条件中的至少一种：滑动操作对应的滑动距离大于预设滑动距离；滑动操作对应的滑动轨迹满足预设滑动轨迹。

示例性地，请参阅图5，以上音频传输的场景为视频通话场景，第一电子设备可以显示视频通话界面A1，视频通话界面中包括用于展示更多功能的控件A2；请参阅图6，在检测到对控件A2的选取操作后，于视频通话界面A1中可以展示更多功能：转换摄像头、免提、转语音、人声增强以及分享声纹，其中，人声增强对应的控件为第一控件A3，当检测到对控件A3的选取操作时，可以响应该操作，开启人声增强处理，以对视频通话中接收到的音频数据进行人声增强处理。

在一种可能的实施方式中，在第一电子设备响应于针对以上第一控件的开启操作，开启人声增强处理之前，第一电子设备可以接收第二电子设备发送的提示信息，该提示信息用于提示开启人声增强处理，并且该提示信息为第二电子设备在检测到当前所处环境的环境噪声的音量大于预设音量时发送的；然后于控制界面显示该提示信息。从而可以实现第二电子设备检测到其所处环境的环境噪声较大时，主动提示第一电子设备开启人声增强处理，以便用户能够及时的控制第一电子设备开启人声增强处理。

当然，在该实施方式中，第一控件也可以用于人声增强处理的关闭，第一电子设备可以在检测到针对第一控件的操作时，关闭人声增强处理。例如，视频通话过程中，当发送端的环境噪声较小时，发送端可以发送相应的提示消息至第一电子设备，第一电子设备可以对应输出该提示消息，当检测到用户对第一控件的操作，则可以关闭人声增强处理。

在另一些实施方式中，第一电子设备在显示音频传输的控制界面后，也可以检测该控制界面中的滑动操作，若检测到的滑动操作满足触发人声增强处理开启的设定滑动条件时，开启人声增强处理。可选地，设定滑动条件可以包括：滑动区域处于设定滑动区域、滑动时长大于设定时长以及滑动轨迹满足设定滑动轨迹中的至少一种。从而，可以实现用户能够在控制界面中利用相应的滑动操作，控制人声增强处理的开启，提示用户体验。

当然，在开启人声增强处理后，当再次检测到的滑动操作满足触发人声增强处理开启的设定滑动条件时，则可以控制人声增强处理关闭。

当然，本申请实施例中控制人声增强处理的开启的具体方式可以不做限定，例如，也可以是第一电子设备在音频传输过程中，检测到用于开启人声增强处理的语音控制指令时，控制人声增强处理开启。

步骤S220：接收所述第二电子设备发送的所述第一声纹信息。

在本申请实施例中，在音频传输的过程中，第二电子设备对其采集到的音频数据进行人声增强处理所依据的第一声纹信息，也可以由第二电子设备发送至第一电子设备，对应的，第一电子设备可以接收到第一声纹信息，并将第一声纹信息进行存储。

在一些实施方式中，第一声纹信息可以是第二电子设备在检测到用于分享声纹的分享操作后，将第一声纹信息发送至第一电子设备。可选地，第二电子设备可以显示音频传输的控制界面，并且控制界面中可以包括用于分享声纹的控件，当第二电子设备检测到该控件的操作后，可以将第一声纹信息发送至第一电子设备。

步骤S230：接收所述第二电子设备在所述音频传输的过程中发送的第一音频数据，其中，所述第一音频数据为所述第二电子设备根据第一声纹信息，对所述音频传输的过程中采集到的音频数据进行人声增强处理后得到的音频数据。

在本申请实施例中，步骤S230可以参阅前述实施例的内容，在此不再赘述。

步骤S240：基于存储的所述第一声纹信息，对所述第一音频数据进行人声增强处理。

在本申请实施例中，第一电子设备基于存储的第一声纹信息，对第一音频数据进行人声增强处理，可以是基于第一声纹信息，从第一音频数据中确定出相应的人声，并对确定的人声进行增强。

在一些实施方式中，第一电子设备可以基于第一声纹信息，从第一音频数据中分离出第一声纹信息对应的人声音频；将人声音频与所述第一音频数据进行混音，得到人声增强处理后的第一音频数据。可以理解地，在分离出第一声纹信息对应的人声音频后，再将人声音频与第一音频数据混音，可以使得人声音频得到叠加，从而使人声突出，得到增强。

在一种可能的实施方式中，第一电子设备在分离出人声音频后，可以对人声音频进行振幅增强，并且对第一音频数据中分离人声音频后的其他音频，进行振幅削弱；然后将进行振幅增强后的人声音频，与进行振幅削弱后的其他音频进行混音，得到人声增强处理后的第一音频数据。

可选地，对人声音频进行振幅增强，可以是将人声音频输入到振幅增强模型。该人声增强模型可以是通过带噪声的语音样本，对深度神经网络训练得到的模型，以抑制噪声和减少信号失真。具体地，振幅增强模型可以根据输入的人声音频，输出需要增强的语音相位信息，然后根据语音相位信息，对人声音频进行重叠相加，得到振幅增强后的人声音频。

可选地，对其他音频进行振幅削弱，也可以是将其他音频输入至振幅削弱模型，以对其他音频进行振幅削弱。该振幅削弱模型也可以是通过语音样本，对深度神经网络训练得到的模型，振幅削弱模型可以根据输入的其他音频，输出需要削弱的语音相位信息，然后根据语音相位信息，对其他音频进行振幅削弱。在该实施方式中，对其他音频进行振幅削弱，而不是完全丢掉此部分声音，可以保留真实的语音采集环境。

可选地，将进行振幅增强后的人声音频，与进行振幅削弱后的其他音频进行混音，得到人声增强处理后的第一音频数据后，还可以对第一音频数据进行平滑处理，以使得到的声音更加自然。

在一些实施方式中，若第一电子设备中未存储有第一声纹信息，即第二电子设备对采集到的音频数据进行人声增强处理所依据的声纹信息，则第一电子设备在接收到第二电子设备发送的音频数据后，不再进行人声增强处理。

在一些实施方式中，第一电子设备在接收到第一音频数据后，可以从第二电子设备获取第二电子设备所处环境的环境音音量；然后将环境音音量与音量阈值进行比较，若环境音音量大于音量阈值，则可以根据第一声纹信息，对接收的第一音频数据再次进行人声增强处理；若环境音音量不大于音量阈值，则可以不对接收的第一音频数据再次进行人声增强处理。

在一种可能的实施方式中，在第二电子设备所处环境的环境音音量大于音量阈值时，第一电子设备还可以根据环境音音量确定人声增强的增强幅度，然后根据该增强幅度，对第一音频数据进行人声增强。可选地，在以上分离人声音频进行振幅增强后，再与削弱振幅后的其他音频进行混音的实施方式中，则可以根据该增强幅度，对人声音频进行振幅增强。其中，增强幅度可以与环境音音量呈正相关。

步骤S250：对人声增强处理后的所述第一音频数据进行播放。

本申请实施例提供的音频处理方法中，第一电子设备可以根据用户的需求，控制人声增强处理的开启，并且第一电子设备可以接收第二电子设备分享的声纹信息，从而可以使音频传输中的音频数据在发送端和接收端均进行人声增强处理，使得人声被双重增强，因此可以突出第一声纹信息对应的人声，从而可以便于用户听清对方的声音。

请参阅图7，图7示出了本申请又一个实施例提供的音频处理方法的流程示意图。该音频处理方法应用于上述电子设备，下面将针对图7所示的流程进行详细的阐述，所述音频处理方法具体可以包括以下步骤：

步骤S310：接收所述第二电子设备在所述音频传输的过程中发送的第一音频数据，其中，所述第一音频数据为所述第二电子设备根据第一声纹信息，对所述音频传输的过程中采集到的音频数据进行人声增强处理后得到的音频数据。

步骤S320：基于存储的所述第一声纹信息，对所述第一音频数据进行人声增强处理。

步骤S330：对人声增强处理后的所述第一音频数据进行播放。

在本申请实施例中，步骤S310至步骤S330可以参阅前述实施例的内容，在此不再赘述。

步骤S340：将第二声纹信息发送至所述第二电子设备。

在本申请实施例中，第一电子设备也可以在音频传输的过程中，对其采集到的用于传输至第二电子设备的音频数据进行人声增强处理。并且，第一电子设备可以将第二声纹信息发送至第二电子设备，以便第二电子设备能够在接收到其发送的音频数据后，能够根据第二声纹信息对接收到的音频数据再次进行人声增强处理。

在一些实施方式中，第一电子设备响应于用于分享声纹的分享操作，将第二声纹信息发送至所述第二电子设备。

可选地，第一电子设备显示所述音频传输的控制界面，控制界面中包括用于分享声纹的第二控件；响应于针对所述第二控件的选取操作，将第二声纹信息发送至所述第二电子设备。

在该实施方式中，对第二控件的选取操作，可以为对第二控件的点击操作、满足指定按压条件的按压操作、满足指定滑动条件的滑动操作等，具体的选取操作可以不做限定。其中指定按压条件可以包括以下条件中至少一种：按压操作对应的按压时长大于第一时长；按压操作对应的按压面积大于指定面积；按压操作对应的按压压力值大于指定压力值。指定滑动条件可以包括以下条件中的至少一种：滑动操作对应的滑动距离大于滑动距离阈值；滑动操作对应的滑动轨迹满足指定滑动轨迹。

请再次参阅图6，在检测到对控件A2的选取操作后，于视频通话界面A1中可以展示更多功能：转换摄像头、免提、转语音、人声增强以及分享个人声纹，其中，声纹分享对应的控件为第二控件A4，当检测到对第二控件A4的选取操作时，可以响应该操作，将第二声纹信息发送至第二电子设备。

当然，本申请实施例中控制声纹分享的具体方式可以不做限定。

在一些实施方式中，第一电子设备在分享第二声纹信息至第二电子设备之前，第一电子设备还可以判断第一电子设备中是否存在预设声纹信息；若存在预设声纹信息，将预设声纹信息作为第二声纹信息；若不存在预设声纹信息，根据音频传输中第一电子设备采集到的音频数据，进行声纹特征提取，得到第二声纹信息。

在一种可能的实施方式中，第一电子设备可以根据预先训练的声纹识别模型，对采集到的音频数据提取声纹特征。其中，声纹识别模型的训练阶段，可以对语音样本进行预处理后，在利用声纹特征提取算法，提取声纹特征，再根据语音样本及其对应的声纹特征，对神经网络进行训练，得到声纹识别模型。可选地，语音样本中，可以按照性别、年龄段以及所在地理区域，获取分别均匀的人声样本，以便提升声纹识别模型的准确性。

在利用声纹识别模型对采集的音频数据进行声纹特征提取时，可以对采集的音频数据进行预处理，再进行底噪和部分背景噪声的去除，然后输入到声纹识别模型，识别得到声纹特征，即得到第二声纹信息。

在一种可能的实施方式中，若第一电子设备中存在多个用户对应的预设声纹信息，则可以提示用户选择本次音频传输中的人声增强处理所依据的预设声纹信息，从而将选取的预设声纹信息作为第二声纹信息。

在一种可能的实施方式中，第一电子设备响应于针对所述第二控件的选取操作时，若不存在预设声纹信息，则可以在控制界面中输出提示消息，以提示用户将根据后续输入的语音进行声纹提取。

示例性地，请参阅图8，视频通话场景中，可以于视频通话界面A1中输出提示框A5，提示框A5的提示内容为：您此前未录入您的声纹，是否要根据后续您的语音内容进行声纹提取；并且提示框A5中还包括用于用户确认是否进行声纹提取的控件，在检测到用户确认声纹提取的操作时，则可以根据采集的音频数据，进行声纹特征提取，得到第二声纹信息。

进一步的，若用户确认不进行声纹提取，则提示用户在本次视频通话结束后，输出提示信息，以录入声纹。例如，请参阅图9，可以在视频通话界面A1中输出提示信息：您拒绝了当前声纹提取请求，无法分享声纹，请在通话接收后录入个人声纹。另外，在通话结束后，还可以输出提示消息，以再次提示用户录入个人声纹，例如，请参阅图10，通话结束后，可以在视频通话应用界面B1中显示“未读消息：请录入个人声纹”。

可选的，在第一电子设备根据采集的音频数据，提取声纹特征时，还可以在成功提取到声纹信息后，输出提示信息，以提示用户已成功提取到声纹信息。例如，请参阅图11，在视频通话界面A1中可以输出提示信息：声纹识别完成，已成功分享声纹，对方用户已经可以接收到您更加清晰的语音输出。

在一些实施方式中，第一电子设备可以获取其所处环境的环境音量，在环境音量大于设定音量阈值时，输出提示消息，以提示用户对第一声纹信息进行分享，以便第二电子设备能够对接收的音频数据再次进行人声增强处理。

在一些实施方式中，第一电子设备以及第二电子设备可以在分享声纹信息至对方的情况下，才执行对采集到的音频数据进行人声增强处理。在该实施方式下，第一电子设备可以从第二电子设备获取第二电子设备所处环境的环境声音量，若环境声音量大于预设阈值，则可以发送提示信息至第二电子设备，以提示第二电子设备分享第一声纹信息，并提示第二电子设备对采集到的音频数据进行人声增强处理。当然，第一电子设备在检测到其环境声音量大于预设阈值时，也可以提示用户分享第二声纹信息，并在分享第二声纹信息的情况下，对采集到的音频数据进行人声增强处理。

在该实施方式中，人声增强处理的开启和关闭，以及声纹分享的实施方式可以进行结合。例如，视频通话场景中，若第一电子设备未开启人声增强处理以及未分享第二声纹信息，则第一电子设备向第二电子设备发送原始采集到的音频数据，且不对第二电子设备发送的音频数据进行人声增强处理；此时，若第一电子设备接收到第二电子设备分享的第一声纹信息，但是不对接收的音频数据进行人声增强处理。

又例如，视频通话场景中，若第一电子设备未开启人声增强处理，且分享了第二声纹信息，则第一电子设备向第二电子设备发送人声增强处理后的音频数据，且不对第二电子设备发送的音频数据进行人声增强处理；此时，若第一电子设备接收到第二电子设备分享的第一声纹信息，但是不对接收的音频数据进行人声增强处理。

再例如，视频通话场景中，若第一电子设备开启人声增强处理，但未分享了第二声纹信息，则第一电子设备向第二电子设备发送原始采集的音频数据，但是对第二电子设备发送的音频数据进行人声增强处理；此时，若第一电子设备接收到第二电子设备分享的第一声纹信息，则可以对接收的音频数据进行人声增强处理；若第一电子设备未接收到第二电子设备分享的第一声纹信息，则不对接收的音频数据进行人声增强处理。

再例如，视频通话场景中，若第一电子设备开启人声增强处理，且分享了第二声纹信息，则第一电子设备向第二电子设备发送人声增强处理后的音频数据，并且可以对第二电子设备发送的音频数据进行人声增强处理；此时，若第一电子设备接收到第二电子设备分享的第一声纹信息，则可以对接收的音频数据进行人声增强处理；若第一电子设备未接收到第二电子设备分享的第一声纹信息，则不对接收的音频数据进行人声增强处理。

在一些实施方式中，在音频传输结束后，第一电子设备可以对第二电子设备分享的第一声纹信息进行删除，并且第二电子设备也可以对第一电子设备分享的第二声纹信息进行删除，从而防止用户隐私泄露。

在一些实施方式中，若音频传输的应用程序第一次被允许时，第一电子设备可以输出提示消息，以提示用户该应用程序具有人声增强处理的功能，并提示用户录入声纹信息。

步骤S350：获取所述第一电子设备在所述音频传输的过程中采集到的第二音频数据。

步骤S360：基于所述第二声纹信息，对所述第二音频数据进行人声增强处理。

在本申请实施例中，第一电子设备在获取到用于发送至第二电子设备的第二音频数据后，则可以基于第二声纹信息，对第二音频数据进行人声增强处理。其中，人声增强处理的方式可以参阅前述实施例中第一电子设备对第一音频数据进行人声增强处理的方式，在此不再赘述。

步骤S370：将人声增强处理后的所述第二音频数据发送至所述第二电子设备，所述第二电子设备用于根据所述第二声纹信息对所述第一电子设备发送的音频数据再次进行人声增强处理。

在本申请实施例中，在对采集的音频数据进行人声增强处理后，则可以将人声增强处理后的第二音频数据发送至第二电子设备，并且第二电子设备可以根据第二声纹信息对第二音频数据再次进行人声增强处理，方便用户听清播放音频中第一电子设备的用户的声音。

在一些实施方式中，在进行音频传输的过程中，若存在多个第二电子设备与第一电子设备进行音频传输，可能存在用户想要录制某个电子设备的用户的语音的情况，例如，多人视频通话会议过程中，只想录下主讲人的说话内容，而不想录音他人的说话内容。因此，可以利用指定用户的声纹信息，从接收的音频数据中分离出指定用户的人声音频，并进行录制。

可选地，由于录音涉及到信息安全问题，因此，若存在某个第二电子设备的用户想要录制第一电子设备的用户的音频，则可以在音频传输的控制界面中，输出提示消息，以提示用户是否允许被录音，在接收到用户确认允许被录音的情况下，该第二电子设备才可以被允许录音。

示例性地，多人视频通话的场景中，若第一电子设备的用户A想要录音用户B和C的声音，但是用户B和C未通过其各自对应的第二电子设备允许录音，因此第一电子设备可以向用户B和C对应的第二电子设备发送录音请求；若用户B通过第二电子设备输入了允许录音的指令，用户C通过第二电子设备输入了不允许录音的指令，则第一电子设备可以单独录制用户B的电子设备推送的音频；若用户B和C都通过其第二电子设备允许第一电子设备进行录音，则第一电子设备可以单独录制用户B和C的音频，也可以录制用户B和C的合并音频。

可选地，在音频传输的控制界面中，可以显示用于允许他人录音的第三控件，在检测到对第三控件的操作时，可以输出提示信息，以提示用户是否运行他人录音。例如，请同时参阅图12及图13，视频通话界面A1中，在检测到对“允许录音”的第三控件A6的操作后，可以在视频通话界面A1中显示提示内容“此次通话过程中所有用户都将有权对您的声音进行单独录音，是否继续？”，若接收到用户的同意操作，则允许其他用户的设备获得录音权限；反之，则不允许其他用户的设备获得录音权限。

可选地，在音频传输的控制界面中，可以显示用于分离录音的第四控件，在检测到对第四控件的操作时，可以输出可选择录音的用户，供用户选择想要录音的用户。例如，请同时参阅图12及图14，视频通话界面A1中，在检测到对“分离录音”的第三控件A7的操作后，可以在视频通话界面A1中显示提示内容“请选择想要进行录音的用户”，并提供可选择的用户的选择选项。进一步地，请参阅图15，若用户选择了多个需要录音的用户，还可以在视频通话界面A1中提示用户选择录音模式，录音模式可以包括“分开录音”以及“合并录音”。对应地，请参阅图16，被选择录音的用户的电子设备可以接收到相应的录音请求，并且电子设备可以在视频通话界面A1中输出提示消息，以提示用户是否允许录音。

本申请实施例提供的音频处理方法，由于第一音频数据在发送端以及接收端均被进行了人声增强处理，使得人声被双重增强，因此可以突出第一声纹信息对应的人声，从而可以便于用户听清对方的声音。另外，提供了分离录音的实现方法，可以满足用户对想要录音的用户的说话内容进行录音的需求。

请参阅图17，其示出了本申请实施例提供的一种音频处理装置400的结构框图。该音频处理装置400应用上述的第一电子设备，所述第一电子设备与音频传输中的第二电子设备连接。该音频处理装置400包括：音频接收模块410、人声增强模块420以及音频播放模块430。其中，所述音频接收模块410用于接收所述第二电子设备在所述音频传输的过程中发送的第一音频数据，其中，所述第一音频数据为所述第二电子设备根据第一声纹信息，对所述音频传输的过程中采集到的音频数据进行人声增强处理后得到的音频数据；所述人声增强模块420用于基于存储的所述第一声纹信息，对所述第一音频数据进行人声增强处理；所述音频播放模块430用于对人声增强处理后的所述第一音频数据进行播放。

在一些实施方式中，该音频处理装置400还包括：人声增强控制模块。人声增强控制模块用于：响应于对所述人声增强处理的开启操作，开启所述人声增强处理，以对接收到的音频数据进行人声增强处理。

在一些实施方式中，人声增强控制模块可以用于：显示所述音频传输的控制界面，所述控制界面中包括用于控制所述人声增强处理的开启的第一控件；响应于针对所述第一控件的开启操作，开启所述人声增强处理，以对接收到的音频数据进行人声增强处理。

在一种可能的实施方式中，该音频处理装置400还包括：提示信息接收模块以及提示信息显示模块。提示信息接收模块用于接收所述第二电子设备发送的提示信息，所述提示信息用于提示开启人声增强处理，所述提示信息为所述第二电子设备在检测到当前所处环境的环境噪声的音量大于预设音量时发送的；提示信息显示模块用于在所述控制界面显示所述提示信息。

在一些实施方式中，该音频处理装置400还包括：声纹接收模块。声纹接收模块用于接收所述第二电子设备发送的所述第一声纹信息。

在一些实施方式中，该音频处理装置400还包括声纹发送模块、音频采集模块以及音频发送模块。声纹发送模块用于将第二声纹信息发送至所述第二电子设备；音频采集模块用于获取所述第一电子设备在所述音频传输的过程中采集到的第二音频数据；人声增强模块用于基于所述第二声纹信息，对所述第二音频数据进行人声增强处理；音频发送模块用于将人声增强处理后的所述第二音频数据发送至所述第二电子设备，所述第二电子设备用于根据所述第二声纹信息对所述第一电子设备发送的音频数据再次进行人声增强处理。

在一些实施方式中，声纹发送模块可以用于：响应于用于分享声纹的分享操作，将第二声纹信息发送至所述第二电子设备。

在一种可能的实施方式中，该音频处理装置400还可以包括：界面显示模块。界面显示模块用于显示所述音频传输的控制界面，所述控制界面中包括用于分享声纹的第二控件；声纹发送模块可以用于：响应于针对所述第二控件的选取操作，将第二声纹信息发送至所述第二电子设备。

在一种可能的实施方式中，该音频处理装置400还可以包括：声纹判断模块、第一确定模块以及第二确定模块。声纹判断模块用于判断所述第一电子设备中是否存在预设声纹信息；第一确定模块用于若存在预设声纹信息，将所述预设声纹信息作为第二声纹信息；第二确定模块用于若不存在预设声纹信息，根据所述音频传输中所述第一电子设备采集到的音频数据，进行声纹特征提取，得到第二声纹信息。

在一些实施方式中，人声增强模块420可以包括音频分离单元以及混音单元。音频分离单元用于基于所述第一声纹信息，从所述第一音频数据中分离出所述第一声纹信息对应的人声音频；混音单元用于将所述人声音频与所述第一音频数据进行混音，得到人声增强处理后的第一音频数据。

在一种可能的实施方式中，人声增强模块420还可以包括振幅增强单元以及振幅削弱单元。振幅增强单元用于对所述人声音频进行振幅增强；振幅削弱单元用于对所述第一音频数据中分离所述人声音频后的其他音频，进行振幅削弱。混音单元可以用于：将进行振幅增强后的所述人声音频，与进行振幅削弱后的所述其他音频进行混音，得到人声增强处理后的第一音频数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上所述，本申请提供的方案，通过接收第二电子设备在音频传输的过程中发送的第一音频数据，该第一音频数据为第二电子设备根据第一声纹信息，对音频传输的过程中采集到的音频数据进行人声增强处理后得到的音频数据，然后基于存储的第一声纹信息，对第一音频数据进行人声增强处理，对进行人声增强处理的第一音频数据进行播放，从而可以实现音频传输的发送端对采集的音频数据进行人声增强处理的同时，接收端也对接收到的音频数据再次进行人声增强处理，从而使得播放的音频中能够突出人声，方便用户听清发送端对应的用户的声音。

请参考图18，其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备100可以是智能手机、平板电脑、智能手表、智能眼镜、笔记本电脑等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件：处理器110、存储器120、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图19，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音频处理方法，其特征在于，应用于音频传输中的第一电子设备，所述第一电子设备与所述音频传输中的第二电子设备连接，所述方法包括：

显示所述音频传输的控制界面，所述控制界面中包括用于控制人声增强处理的开启的第一控件；

响应于针对所述第一控件的开启操作，开启所述人声增强处理，以对接收到的音频数据进行人声增强处理；

接收所述第二电子设备在所述音频传输的过程中发送的第一音频数据，其中，所述第一音频数据为所述第二电子设备根据第一声纹信息，对所述音频传输的过程中采集到的音频数据进行人声增强处理后得到的音频数据；

基于存储的所述第一声纹信息，对所述第一音频数据进行人声增强处理；

对人声增强处理后的所述第一音频数据进行播放。

2.根据权利要求1所述的方法，其特征在于，在所述显示所述音频传输的控制界面之前，所述方法还包括：

接收所述第二电子设备发送的提示信息，所述提示信息用于提示开启人声增强处理，所述提示信息为所述第二电子设备在检测到当前所处环境的环境噪声的音量大于预设音量时发送的；

于所述控制界面显示所述提示信息。

3.根据权利要求1所述的方法，其特征在于，在所述基于存储的所述第一声纹信息，对所述第一音频数据进行人声增强处理之前，所述方法还包括：

接收所述第二电子设备发送的所述第一声纹信息。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将第二声纹信息发送至所述第二电子设备；

获取所述第一电子设备在所述音频传输的过程中采集到的第二音频数据；

基于所述第二声纹信息，对所述第二音频数据进行人声增强处理；

将人声增强处理后的所述第二音频数据发送至所述第二电子设备，所述第二电子设备用于根据所述第二声纹信息对所述第一电子设备发送的音频数据再次进行人声增强处理。

5.根据权利要求4所述的方法，其特征在于，所述将第二声纹信息发送至所述第二电子设备，包括：

响应于用于分享声纹的分享操作，将第二声纹信息发送至所述第二电子设备。

6.根据权利要求5所述的方法，其特征在于，在所述响应于用于分享声纹的分享操作，将第二声纹信息发送至所述第二电子设备之前，所述方法还包括：

显示所述音频传输的控制界面，所述控制界面中包括用于分享声纹的第二控件；

所述响应于用于分享声纹的分享操作，将第二声纹信息发送至所述第二电子设备，包括：

响应于针对所述第二控件的选取操作，将第二声纹信息发送至所述第二电子设备。

7.根据权利要求4所述的方法，其特征在于，在所述将第二声纹信息发送至所述第二电子设备之前，所述方法还包括：

判断所述第一电子设备中是否存在预设声纹信息；

若存在预设声纹信息，将所述预设声纹信息作为第二声纹信息；

若不存在预设声纹信息，根据所述音频传输中所述第一电子设备采集到的音频数据，进行声纹特征提取，得到第二声纹信息。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述基于存储的所述第一声纹信息，对所述第一音频数据进行人声增强处理，包括：

基于所述第一声纹信息，从所述第一音频数据中分离出所述第一声纹信息对应的人声音频；

将所述人声音频与所述第一音频数据进行混音，得到人声增强处理后的第一音频数据。

9.根据权利要求8所述的方法，其特征在于，在所述将所述人声音频与所述第一音频数据进行混音，得到人声增强处理后的第一音频数据之前，所述方法还包括：

对所述人声音频进行振幅增强；

对所述第一音频数据中分离所述人声音频后的其他音频，进行振幅削弱；

所述将所述人声音频与所述第一音频数据进行混音，得到人声增强处理后的第一音频数据，包括：

将进行振幅增强后的所述人声音频，与进行振幅削弱后的所述其他音频进行混音，得到人声增强处理后的第一音频数据。

10.一种音频处理装置，其特征在于，应用于音频传输中的第一电子设备，所述第一电子设备与所述音频传输中的第二电子设备连接，所述装置包括：人声增强控制模块、音频接收模块、人声增强模块以及音频播放模块，其中，

所述人声增强控制模块用于显示所述音频传输的控制界面，所述控制界面中包括用于控制人声增强处理的开启的第一控件；响应于针对所述第一控件的开启操作，开启所述人声增强处理，以对接收到的音频数据进行人声增强处理；

所述音频接收模块用于接收所述第二电子设备在所述音频传输的过程中发送的第一音频数据，其中，所述第一音频数据为所述第二电子设备根据第一声纹信息，对所述音频传输的过程中采集到的音频数据进行人声增强处理后得到的音频数据；

所述人声增强模块用于基于存储的所述第一声纹信息，对所述第一音频数据进行人声增强处理；

所述音频播放模块用于对人声增强处理后的所述第一音频数据进行播放。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-9任一项所述的方法。

12.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-9任一项所述的方法。