CN113205815B

CN113205815B - 语音处理方法和电子设备

Info

Publication number: CN113205815B
Application number: CN202110468910.2A
Authority: CN
Inventors: 刘飞
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2023-02-28
Anticipated expiration: 2041-04-28
Also published as: CN113205815A

Abstract

本申请公开了一种语音处理方法和电子设备，属于语音处理领域。该方法包括：接收语音信息；将所述语音信息转换为文本内容，并对所述语音信息进行信号处理得到所述语音信息的语谱图；在基于所述语谱图，检测到所述语音信息中包括异常语音片段的情况下，对所述文本内容进行目标调整，其中，所述目标调整包括对所述异常语音片段对应的异常文本片段的显示属性进行调整；显示调整后的文本内容。

Description

语音处理方法和电子设备

技术领域

本申请属于语音处理技术领域，具体涉及一种语音处理方法和电子设备。

背景技术

在社交应用中，发送语音信息聊天已经非常普及，语音信息的使用使得沟通非常方便。在用户接收语音信息时，可采用语音转文字的方式直接浏览文字内容，浏览文字内容相比较收听语音速度上会更快。

然而，语音转换为文字内容的方案中，转换得到的文字内容可能存在转写错误等异常情况，导致无法理解语音信息的原义，甚至可能导致语义完全错误的问题，目前，在转换得到的文字内容后，显示文字内容，用户需要通过主观判断其中的异常，显示效果较差。

发明内容

本申请实施例的目的是提供一种语音处理方法和电子设备，能够解决语音信息转换的文本内容的显示效果较差的问题。

第一方面，本申请实施例提供了一种语音处理方法，所述方法包括：

接收语音信息；

将所述语音信息转换为文本内容，并对所述语音信息进行信号处理得到所述语音信息的语谱图；

在基于所述语谱图，检测到所述语音信息中包括异常语音片段的情况下，对所述文本内容进行目标调整，其中，所述目标调整包括对所述异常语音片段对应的异常文本片段的显示属性进行调整；

显示调整后的文本内容。

第二方面，本申请实施例提供了一种语音处理装置，所述装置包括：

第一接收模块，用于接收语音信息；

语音处理模块，用于将所述语音信息转换为文本内容，并对所述语音信息进行信号处理得到所述语音信息的语谱图；

调整模块，用于在基于所述语谱图，检测到所述语音信息中包括异常语音片段的情况下，对所述文本内容进行目标调整，其中，所述目标调整包括对所述异常语音片段对应的异常文本片段的显示属性进行调整；

第一显示模块，用于显示调整后的文本内容。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本实施例的语音处理方法中，首先可获得语音信息的语谱图，利用语谱图进行语音异常检测，在检测到所述语音信息中包括异常语音片段的情况下，可对所述文本内容中异常语音片段对应的异常文本片段的显示属性进行调整后显示，以区分文本内容中的异常文本片段与非异常文本，以实现对文本内容中异常文本片段的提示，从而提高文本内容的显示效果。

附图说明

图1是本申请实施例提供的语音处理方法的流程图之一；

图2是本申请实施例提供的语音处理方法的流程图之二；

图3是本申请实施例提供的语谱图之一；

图4是本申请实施例提供的语谱图之二；

图5是本申请实施例提供的语谱图之三；

图6是本申请实施例提供的语谱图之四；

图7是本申请实施例提供的电子设备的显示界面之一；

图8是本申请实施例提供的电子设备的显示界面之二；

图9是本申请实施例提供的语音处理装置的示意图；

图10是本申请实施例提供的电子设备的结构示意图

图11是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的语音处理方法进行详细地说明。

如图1所示，本申请提供一种实施例的语音处理方法，该方法包括：

步骤101：接收语音信息。

该方法可应用在电子设备，由电子设备执行该方法。在聊天应用或社交应用中，可发送或接收信息进行沟通，例如，文字信息、语音信息、图片信息、视频信息等。如此，可在聊天应用或社交应用的聊天界面中接收沟通对方发送的语音信息，或者，可在电子设备的聊天应用或社交应用的聊天界面中接收用户输入的语音信息，然后可将语音信息发送给沟通对方。

步骤102：将语音信息转换为文本内容，并对语音信息进行信号处理得到语音信息的语谱图。

可通过语音识别技术识别语音信息，得到文本内容，即实现语音信息转换为文本内容。语音信号为一种时域信号，经过信号处理可得到语谱图，语谱图表示语音频谱随时间变化的图像，是一种三维频谱，其中两个维度为时间和频率，横轴为时间，纵轴为频率，另一个维度为能量，可以理解语谱图中包含了时间、频率以及能量等信息。在语谱图中任意给定频率成分在给定时刻的能量强弱(能量值大小)可以用相应点(即给定时刻与给定频率的点)的灰度或色调的深浅来表示，颜色越深表示该点的语音能量越弱，能量值大小越小，颜色越浅表示颜色越亮，则该点的语音能量越强，能量值大小越大，如此，频谱图可通过时间和频率对应的二维平面图表示，且二维平面图中的每个点对应一个能量，可通过颜色深浅表示，即可表达三维信息。

作为一个示例，对语音信息进行信号处理得到语音信息的语谱图，可以包括：对语音信息进行分帧处理，得到多帧语音信号；对多帧语音信号进行加窗处理，得到多个加窗后的帧语音信号；对多个加窗后的帧语音信号进行短时傅里叶变换，得到多个傅里叶变换结果；基于多个傅里叶变换结果，得到多帧语音信号的能量密度；将多帧语音信号的能量密度映射为灰度图，得到语音信息的语谱图。其中，灰度图的像素范围在0-255内，如此，得到的语谱图是与时间、频率以及能量相关的图。

步骤103：在基于语谱图，检测到语音信息中包括异常语音片段的情况下，对文本内容进行目标调整。

其中，目标调整包括对异常语音片段对应的异常文本片段的显示属性进行调整。

在本实施例中，通过语音信息的语谱图检测语音信号中是否发生异常，可提高异常检测的准确性，若检测到语音信息中包括异常语音片段的情况下，则对文本内容进行目标调整，例如，可调整异常语音片段对应的异常文本片段的显示属性，使异常文本片段的显示属性与文字内容中非异常文字的显示属性不同。

作为一个示例，显示属性包括但不限于文字大小、文字颜色、文字字形以及文字底色中的至少一项。例如，语音转换的文字内容，默认是通过黑色字体，为突出异常文本片段，可将异常文本片段的文字颜色调整为红色，文字内容中除了异常文本片段以外的其他非异常文本不变，仍是黑色字体，从而可区分异常文本片段和非异常文本。又例如，对于文字底色调整，语音转换的文字内容，默认是无底色，可设置异常文本片段的底色，例如，设置底色为黄色，实现异常文本片段的高亮显示，文字内容中除了异常文本片段以外的其他非异常文本不变，仍是无底色，从而可区分异常文本片段和非异常文本。

步骤104：显示调整后的文本内容。

对异常文本片段进行目标调整后，即可显示调整后的文本内容，由于对文本内容中异常文本片段的显示属性进行了调整，从而实现了文字内容中异常文本片段与非异常文字之间的区分，突出文字内容中异常文本片段，实现异常文本片段的提示，便于用户快速定位文本内容中异常文本片段。

在本实施例的语音处理方法中，首先可获得语音信息的语谱图，利用语谱图进行语音异常检测，在检测到语音信息中包括异常语音片段的情况下，可对文本内容中异常语音片段对应的异常文本片段的显示属性进行调整后显示，以区分文本内容中的异常文本片段与非异常文本，以实现对文本内容中异常文本片段的提示，从而提高文本内容的显示效果。

在一个实施例中，在基于语谱图，检测到语音信息中包括异常语音片段的情况下，对文本内容进行目标调整的步骤103，包括：

确定语谱图中能量值大于预设阈值的多个第一区域以及语谱图中能量值小于或等于预设阈值的多个第二区域；

根据预设时长以及预设频率带宽，对多个第一区域进行划分，得到多个时间段内的第一目标区域，并对多个第二区域进行划分，得到多个时间段内的第二目标区域，其中，每个时间段时长为预设时长，同一时间段内的第一目标区域的频率在预设频率带宽内，同一时间段内的第二目标区域的频率在预设频率带宽内；

对多个时间段内的第一目标区域以及多个时间段内的第二目标区域进行异常检测，确定语音信息在多个时间段内的异常检测结果；

在多个时间段内的异常检测结果中至少一个时间段的异常检测结果为异常结果的情况下，确定语音信息中包括异常语音片段，并对文本内容进行目标调整，其中，异常语音片段包括语音信息中异常结果对应的时间段对应的语音片段。

第一区域的能量值大于预设阈值，表示第一区域的能量值较大，可以理解为语谱图中明亮区域，第二区域的能量值小于或等于预设阈值表示第二区域的能量值较小，可以理解为语谱图中灰暗区域。同一个时间段内的第一目标区域中可包括至少一个第一目标子区域，多个第一区域包括多个时间段内的第一目标区域，同一时间段内的第二目标区域中可包括至少一个第二目标子区域，多个第二区域包括多个时间段内的第二目标区域。作为一个示例，上述预设时长的取值范围可以为[100毫秒，300毫秒]，频率带宽可以理解为频率范围，预设频率带宽可以是语音信号的频率带宽或者是语音信号的频率带宽中的一段频率带宽，语音信号的频率带宽为在[最小频率，最大频率]范围的频率段，最小频率为语音信号的最低频率，最大频率为语音信号的最高频率。每个时间段内的第一目标区域即包括多个第一区域中在预设频率带宽范围内的处于该时间段内的区域，不同时间段的频率带宽相同，均是预设频率带宽。可通过多个时间段内的第一目标区域以及多个时间段内的第二目标区域进行异常检测，可以理解，是对每个时间段进行异常检测，如此，可确定语音信息在多个时间段内每个时间段的异常检测结果，即可得到多个异常检测结果，异常检测结果可以包括异常结果(即语音异常)或非异常结果(即语音正常)。若多个时间段内的异常检测结果中包括异常结果，则可确定语音信息中存在异常，即可对文本内容进行目标调整。需要说明的是，异常结果对应的时间段，表示语音存在异常的时间段，上述异常语音片段可包括该时间段对应的语音片段。

在本实施例中，首先确定语谱图中能量值大于预设阈值的多个第一区域以及语谱图中能量值小于或等于预设阈值的多个第二区域，通过预设时长以及预设频率带宽，对多个第一区域进行划分，得到多个时间段内的第一目标区域，并对多个第二区域进行划分，得到多个时间段内的第二目标区域，是基于多个时间段内的第一目标区域以及多个时间段内的第二目标区域进行异常检测，可提高异常检测的准确性，且在异常检测结果中包括异常结果的情况下，可对文本内容进行目标调整后显示，以区分文本内容中的异常文本片段与非异常文本，以提高文本内容中异常文本片段的提示效果，即提高文本内容的异常提示。

作为一个示例，异常结果包括多人说话异常、语音混响异常和环境噪声异常中的至少一项，其中，基于多个时间段内的第一目标区域以及多个时间段内的第二目标区域进行异常检测，确定语音信息在多个时间段内的异常检测结果，可以包括：

基于目标时间段内的第一目标区域中每两个相邻区域之间的中心间隔距离、目标时间段内的第一目标区域的平均宽度、目标时间段内的第一目标区域的渐近线、目标时间段内的第一目标区域的边缘轮廓线、目标时间段内的第二目标区域的面积与语音信息的语谱图在预设频率带宽下目标时间段内的目标区域的面积的比值以及目标时间段内的第二目标区域在目标区域内的分布进行异常检测，确定语音信息在目标时间段内的异常检测结果，其中，目标时间段为多个时间段中任一时间段。

即多个时间段中任一时间段均可通过上述该过程确定其异常检测结果，如此，可得到多个时间段中每个时间段的异常检测结果。需要说明的是，对于第一目标区域中的任一区域，形状可能不规则，则区域的不同位置的宽度不一致，则每个区域有对应的平均宽度，若目标时间段内的第一目标区域中的区域数量为至少两个，则第一目标区域的平均宽度，是包括第一目标区域中每个区域分别对应的平均宽度，即包括至少两个平均宽度，若目标时间段内的第一目标区域中的区域数量为一个，则第一目标区域的平均宽度即是对第一目标区域中不同位置的宽度的平均值。

作为一个示例，基于目标时间段内的第一目标区域中每两个相邻区域之间的中心间隔距离、目标时间段内的第一目标区域的平均宽度以及目标时间段内的第一目标区域的渐近线，可检测语音信息在目标时间段内是否出现多人说话异常。其中，目标时间段内的第一目标区域中每两个相邻区域之间的中心间隔距离为目标时间段内的第一目标区域中在频率上每两个相邻区域之间的中心间隔距离，例如，如果出现中心间隔距离波动较大、平均宽度变化较大以及渐近线趋势不一致，可确定该目标时间段内出现多人说话异常，即语音信息中包括多人说话片段。另外，基于目标时间段内的第一目标区域的边缘轮廓线，可检测语音信息在目标时间段内是否出现语音混响异常，作为一个示例，可基于目标时间段内的第一目标区域的边缘轮廓线的导数，检测语音信息在目标时间段内是否出现语音混响异常。例如，目标时间段内的第一目标区域包括多个区域，分别对第一目标区域中的每个区域的边缘轮廓线进行多个位置求导，从而，对于第一目标区域中的任一区域的边缘轮廓线，可获得多个导数，若第一目标区域中至少一个区域的边缘轮廓线的多个导数出现非连续变化，表示第一目标区域中出现了扰动、变形等，则可认为语谱图的目标时间段内出现了语音混响异常。

作为一个示例，可基于目标时间段内的第二目标区域的面积与语音信息的语谱图在预设频率带宽下目标时间段内的目标区域的面积的比值以及目标时间段内的第二目标区域在目标区域内的分布，检测语音信息在目标时间段内是否出现环境噪音异常，即检测是否包括环境噪音。例如，可统计语谱图的目标时间段的目标区域内第二目标区域的面积和分布位置，如果出现目标时间段内的第二目标区域的面积占目标区域的面积的比例小于预设比例，例如20％，并且目标时间段内的第二目标区域没有出现高频多低频少的情况，即第二目标区域中大部分区域分布在低频位置，例如，目标时间段内的第二目标区域中高频的区域的数量占第二目标区域的区域总数的比例小于目标时间段内的第二目标区域中低频的区域的数量占第二目标区域的区域总数的比例，则可以认为该目标时间段内出现环境噪音异常，即语音信息中包括环境噪音片段。需要说明的是，高频可以理解为大于预设频率，低频可以理解为小于或等于预设频率，预设频率可以是语音信号的频率带宽的一半。

在一个实施例中，文本内容包括N个文本片段，N为正整数，语音信息包括N个语音片段，N个语音片段与N个文本片段对应，语音信息的语谱图包括N个子语谱图，N个语音片段与N个子语谱图对应；

其中，在基于语谱图，检测到语音信息中包括异常语音片段的情况下，对文本内容进行目标调整，包括：在基于N个子语谱图，检测到N个语音片段中包括异常语音片段的情况下，对文本内容进行目标调整。

也即是可将文本内容分为N个文本片段，根据N个文本片段，将语音信息分为N个语音片段，语音片段与文本片段一一对应，对每个语音片段分别进行信号处理，均可得到对应的子语谱图，语音片段与子语谱图一一对应。

可对每个语音片段分别进行异常检测，例如，基于目标子语谱图，检测N个语音片段中目标子语谱图对应的目标语音片段是否异常，目标子语谱图为N个子语谱图中任一语谱图。只要检测到N个语音片段中包括异常语音片段，即可对文本内容进行目标调整。

即在本实施例中，是对语音信息进行分段异常检测，只要N个语音片段中包括异常语音片段，则对文本内容进行目标调整后显示。如此，可提高对语音异常检测的准确性，从而提高对文本内容调整的准确性，提高异常提示的准确性。

需要说明的是，对于在基于N个子语谱图，检测到N个语音片段中包括异常语音片段的情况下，对文本内容进行目标调整的过程，是通过子语谱图，检测其对应的语音片段是否异常，基于每个子语谱图，检测对应的语音片段是否异常，实现N个语音片段的异常检测。对于目标子语谱图，即N个子语谱图中任一子语谱图，检测其对应的语音片段是否异常的过程与上述检测语音信息是否异常的过程类似，不同之处在于，前者是利用目标子语谱图，后者是利用语音信息的语谱图。例如，对于目标子语谱图，可确定目标子中能量值大于预设阈值的多个第三区域以及语谱图中能量值小于或等于预设阈值的多个第四区域；根据预设时长以及预设频率带宽，对多个第三区域进行划分，得到多个时间段内的第三目标区域，并对多个第四区域进行划分，得到多个时间段内的第四目标区域，其中，每个时间段时长为预设时长，同一时间段内的第三目标区域的频率在预设频率带宽内，同一时间段内的第四目标区域的频率在预设频率带宽内；基于多个时间段内的第三目标区域以及多个时间段内的第四目标区域进行异常检测，确定目标子语谱图对应的目标语音片段在多个时间段内的异常检测结果；在目标语音片段在多个时间段内的异常检测结果中至少一个时间段的异常检测结果为异常结果的情况下，确定目标语音片段为异常语音片段，并对文本内容进行目标调整。即可以基于N个子语谱图分别进行异常检测，在N个语音片段的异常检测结果中包括异常结果的情况下，确定N个语音片段中包括异常语音片段，并对文本内容进行目标调整。

在一个实施例中，目标调整还包括在异常文本片段末尾增加异常提示信息，异常提示信息用于提示异常文本片段对应的语音片段异常。

也即是，不但可通过调整异常文本片段的显示属性，来突出异常文本片段，以实现异常提示，而且可在异常文本片段末尾增加异常提示信息，以提示异常文本片段对应的异常语音片段异常，增强异常提示，从而提高异常提示效果，以便用户查看异常文本片段。作为一个示例，目标调整还可以包括在异常文本片段的位置增加下划线等，以增强提示。

在一个实施例中，对文本内容进行目标调整之后，还包括：

显示异常语音片段对应的控件；

接收对控件的第一输入；

响应于第一输入，播放异常语音片段。

即在本实施例中，不但可通过调整异常文本片段的显示属性，来突出异常文本片段，以实现异常提示，而且可显示异常语音片段对应的控件，以提示异常语音片段，增强异常提示，从而提高异常提示效果，用户可对控件进行第一输入，例如，点击输入等，即可播放异常语音片段，如此，不但可提示异常文本片段，而且可提示异常语音片段，用户重新收听异常语音片段即可，无需收听整个语音信息，提高信息浏览效率和质量。

下面以一个具体实施例对上述语音处理方法的过程加以详细说明。如图2所示，本实施例的语音处理方法的流程如下：

步骤201、用户在聊天界面中接收到语音信息后，准备浏览语音信息。

步骤202、对语音信息转文字、断句以及生成语谱图。

首先，可对接收的语音信息进行文字转换，获取当前语音信息相对应的文字内容，对文字内容进行加标点符号，每一个标点符号的位置就认为该段文字为完整一句，逗号也认为是一句，实现断句，也可以理解为进行文本分片，每一句对应一个文本片段，可得到N个文本片段。

然后，根据文本片段对语音信息进行分片，获取每个文本片段对应的语音片段，例如，可得到N个语音片段，并可将语音片段和文本片段一一关联，对应管理起来，可将语音片段和文本片段一一关联存储等。

其次，生成每个语音片段的子语谱图，得到语音信息的语谱图。语音片段的子语谱图的生成过程如下：

对于目标语音片段(N个语音片段中的任一片段)，将其经过信号的分帧和加窗处理后，再进行短时傅里叶变化处理得到该目标语音片段的能量密度谱。再在能量密度谱的基础上，将能量大小映射到图像像素的范围中，一般在0到255的区间内，数值越大颜色越浅，最后绘制出该段目标语音片段的子语谱图，语谱图可以表示为横轴为时间，纵轴为频率，颜色深浅代表能量值大小的三维图像。

步骤203：判断N个语音片段中是否存在语谱图异常的异常语音片段。

确定的异常检测结果为非异常结果(即正常结果)或异常结果，如果不存在异常，例如语谱正常(一人说话，干净清晰没有其他声音干扰)，则显示文字内容接口。如果存在继续判断属于哪种异常。通常可以将异常结果分为如下几类：多人说话、语音混响以及环境噪声。

如图3所示，为某个语音片段的子语谱图，该段语音片段语谱图正常，其异常检测结果为非异常结果，该语音片段中只包括一个说话人语音，图3中语音出现的位置呈现沿着横轴(即时间方向)的若干平行的明亮的清晰纹路，非纹路区域呈现深色的连片区域。

如图4所示，为一个语音片段的子语谱图，该段语音片段异常检测结果为多人说话，该段语音片段包含至少两个语音。如图4所示，在该子语谱图上，可以较明显的判断出沿着横轴(即时间方向)出现若干稀疏程度不同、粗细程度不同、走向不同纹路交叠的明亮纹路，如图4中方框中的位置的纹路变化。

如图5所示，为一个语音片段的子语谱图，该段语音片段异常检测结果为语音混响，该段语音片段存在多个传播途径并且不同途径存在时延，最终语音进入麦克风被采集的语音。如图5所示，在子语谱图上，可以较明显的判断出沿着横轴(即时间方向)出现明亮纹路不清晰，部分地方纹路出现局部扰动、变形和重叠等问题，如图5中方框中的位置的纹路变化。

如图6所示，为一个语音片段的子语谱图，该段语音片段异常检测结果为环境噪声，该段语音片段存在较大的环境噪声，例如，可能包括生活中遇到的商场、车载、家居等环境中产生的各种噪声，例如，包括发动机轰鸣声、物体碰撞声、物体摩擦声等。如图6所示，在该子语谱图上，可以较明显的判断出沿着横轴(即时间方向)出现整体弥漫噪点，如图6中方框的位置，另外明亮纹路的中间地带出现稍微暗淡的噪点，如图6椭圆框的位置。

如果N个语音片段的语谱正常，则认为整条语音信息是正常语音，执行步骤204：显示文字内容。即保持原来的语音信息转文字结果即文本内容不做修改进行显示。

若果N个语音片段中存在异常语音片段，则执行步骤205。

步骤205、将文字内容中的异常文本片段的字形调整为加粗，在异常文本片段末尾增加异常提示信息后显示，并显示异常语音片段的控件。

异常文本片段末尾增加异常提示信息，可以理解为异常文本片段的最后一个文字后的位置处增加异常提示信息，用户不但可查看到异常提示信息，快速定位异常位置，并且可点击控件，播放异常语音片段。

例如，如图7所示，同事发送了10秒的语音信息，接收该语音信息，可长按该语音信息，出现转文字控件，点击转文字控件，准备预览语音信息的文字内容。或者，可在聊天界面的语音信息的周围显示转文字控件，点击转文字控件，准备预览语音信息的文字内容。

这条语音信息的实际内容是：“待会六点下班，我们直接出发去蒋村吃饭，地址是羊大爷涮肉。你打的过来吧。我这边正在下楼梯先不跟你说了”。准备浏览此语信息。此时电子设备会将语音信息转为文字，得到文本内容，转出的文本内容为“待会六点下班，我们直接出发去蒋村吃饭，地址是羊大爷涮牛肉。你打的过来吧。我这边正在下楼梯先不跟你。”电子设备会针对文本内容分片得到多个文本片段。这里分片的结果包括5个文本片段，文本片段如下：

(1)待会六点下班；

其对应的语音片段是0.0～1.6s的片段，称为片段一。

(2)我们直接出发去蒋村吃饭；

其对应的语音片段是1.6～3.2s的片段，称为片段二。

(3)地址是羊大爷涮牛肉；

其对应的语音片段是3.2～4.5s的片段，称为片段三；

(4)你打的过来吧；

其对应的语音片段是4.5～7.2s的片段，称为片段四；

(5)我这边正在下楼梯先不跟你；

其对应的语音片段是7.2s～10.0s的片段，称为片段五。

再对每个语音片段进行异常检测，在本实施例中，处理结果是，片段一、二、四片段为正常，片段三为语谱异常，片段五为语谱异常。

将文字内容中的异常文本片段的字形调整为加粗，在异常文本片段末尾增加异常提示信息后显示，并显示异常语音片段的控件。如图8所示，将异常语音片段三对应的异常文本片段(即地址是羊大爷涮牛肉)以及异常语音片段五对应的异常文本片段(即我正在下楼梯先不跟你)的字形进行调整，例如对异常文字片段进行加粗，将字形调整为加粗字形，并在异常语音片段三对应的异常文本片段末尾增加“片段三：语谱异常”的异常提示信息以及在异常语音片段五对应的异常文本片段末尾增加“片段五：语谱异常”的异常提示信息，且异常提示信息的显示属性与异常文本片段的显示户型相同，例如，异常提示信息的字形与异常文本片段的字形相同，均为加粗。并显示异常语音片段三和异常语音片段五的控件，用户点击异常语音片段三的控件，即可播放异常语音片段三，用户点击异常语音片段五的控件，即可播放异常语音片段五。作为另一个示例，也可将异常语音片段三对应的异常文本片段(即地址是羊大爷涮牛肉)以及异常语音片段五对应的异常文本片段(即我正在下楼梯先不跟你)的字体颜色调整为红色，并在异常语音片段三对应的异常文本片段末尾增加“片段三：语谱异常”的异常提示信息以及在异常语音片段五对应的异常文本片段末尾增加“片段五：语谱异常”的异常提示信息，且异常提示信息的显示属性与异常文本片段的显示户型相同，例如，异常提示信息的字体颜色与异常文本片段的字体颜色相同，均为红色。

本申请实施例语音处理方法为一种快速找出语音信息转换的文本内容中局部异常的方法，并且可对文本内容中异常进行调整并输出异常提示，以及显示异常语音片段的控件。当用户接收到其他人发过来的语音信息时，由电子设备预先识别该语音信息的文本内容。然后对于文本内容预处理断句分割，并且获取每段文本片段对应音频的起始位置，这样将原始的音频信息可分割成若干个语音片段，每一段文本片段和语音片段一一对应起来。然后将每一段的语音片段和文本片段单独进行异常检测，如果异常，包括但不局限于提到语音异常和文本异常。通过判断这些片段，将正常语音片段的文本片段直接展现，将异常文本片段调整背景颜色和文字颜色后展现，并可增加异常提示信息，让用户既可以快速浏览，又能够快速定位转文字异常位置，既保证浏览效率又保证准确性，并且由用户主动判断是否收听异常语音片段。

如图9所示，提供一种实施例的语音处理装置900，装置900包括：

第一接收模块901，用于接收语音信息；

语音处理模块902，用于将语音信息转换为文本内容，并对语音信息进行信号处理得到语音信息的语谱图；

调整模块903，用于在基于语谱图，检测到语音信息中包括异常语音片段的情况下，对文本内容进行目标调整，其中，目标调整包括对异常语音片段对应的异常文本片段的显示属性进行调整；

第一显示模块904，用于显示调整后的文本内容。

在一个实施例中，调整模块903，包括：

确定模块，用于确定语谱图中能量值大于预设阈值的多个第一区域以及语谱图中能量值小于或等于预设阈值的多个第二区域；

划分模块，用于根据预设时长以及预设频率带宽，对多个第一区域进行划分，得到多个时间段内的第一目标区域，并对多个第二区域进行划分，得到多个时间段内的第二目标区域，其中，每个时间段时长为预设时长，同一时间段内的第一目标区域的频率在预设频率带宽内；

异常检测模块，用于对多个时间段内的第一目标区域以及多个时间段内的第二目标区域进行异常检测，确定语音信息在多个时间段内的异常检测结果；

调整子模块，用于在多个时间段内的异常检测结果中至少一个时间段的异常检测结果为异常结果的情况下，确定语音信息中包括异常语音片段，并对文本内容进行目标调整，其中，异常语音片段包括语音信息中异常结果对应的时间段对应的语音片段。

在一个实施例中，装置还包括：

第二显示模块，用于调整模块对文本内容进行目标调整之后，显示异常语音片段对应的控件；

第二接收模块，用于接收对控件的第一输入；

播放模块，用于响应于第一输入，播放异常语音片段。

本申请实施例中的语音处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为网络附属存储器(Network AttachedStorage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的语音处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的语音处理装置能够实现上述语音处理方法实施例实现的各个过程，例如，能够实现图1和图2的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图10所示，本申请实施例还提供一种电子设备1000，包括处理器1001，存储器1002，存储在存储器1002上并可在处理器1001上运行的程序或指令，该程序或指令被处理器1001执行时实现上述语音处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

图11为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1100包括但不限于：射频单元1101、网络模块1102、音频输出单元1103、输入单元1104、传感器1105、显示单元1106、用户输入单元1107、接口单元1108、存储器1109、以及处理器1110等部件。

本领域技术人员可以理解，电子设备1100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图11中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，射频单元1101，用于接收语音信息；

处理器1110，用于将语音信息转换为文本内容，并对语音信息进行信号处理得到语音信息的语谱图；

处理器1110，用于在基于语谱图，检测到语音信息中包括异常语音片段的情况下，对文本内容进行目标调整，其中，目标调整包括对异常语音片段对应的异常文本片段的显示属性进行调整；

显示单元1106，用于显示调整后的文本内容。

在一个实施例中，处理器1110，用于确定语谱图中能量值大于预设阈值的多个第一区域以及语谱图中能量值小于或等于预设阈值的多个第二区域；

处理器1110，用于根据预设时长以及预设频率带宽，对多个第一区域进行划分，得到多个时间段内的第一目标区域，并对多个第二区域进行划分，得到多个时间段内的第二目标区域，其中，每个时间段时长为预设时长，同一时间段内的第一目标区域的频率在预设频率带宽内；

处理器1110，用于对多个时间段内的第一目标区域以及多个时间段内的第二目标区域进行异常检测，确定语音信息在多个时间段内的异常检测结果；

处理器1110，用于在多个时间段内的异常检测结果中至少一个时间段的异常检测结果为异常结果的情况下，确定语音信息中包括异常语音片段，并对文本内容进行目标调整，其中，异常语音片段包括语音信息中异常结果对应的时间段对应的语音片段。

在一个实施例中，显示单元1106，用于处理器1110对文本内容进行目标调整之后，显示异常语音片段对应的控件；

用户输入单元1107，用于接收对控件的第一输入；

音频输出单元1103，用于响应于第一输入，播放异常语音片段。

应理解的是，本申请实施例中，输入单元1104可以包括图形处理器(GraphicsProcessing Unit，GPU)11041和麦克风11042，图形处理器11041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1106可包括显示面板11061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板11061。用户输入单元1107包括触控面板11071以及其他输入设备11072。触控面板11071，也称为触摸屏。触控面板11071可包括触摸检测装置和触摸控制器两个部分。其他输入设备11072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器1109可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器1110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1110中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述语音处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述语音处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种语音处理方法，所述方法包括：

接收语音信息；

显示调整后的文本内容；

其中，所述在基于所述语谱图，检测到所述语音信息中包括异常语音片段的情况下，对所述文本内容进行目标调整，包括：

确定所述语谱图中能量值大于预设阈值的多个第一区域以及所述语谱图中能量值小于或等于预设阈值的多个第二区域；

根据预设时长以及预设频率带宽，对所述多个第一区域进行划分，得到多个时间段内的第一目标区域，并对所述多个第二区域进行划分，得到多个时间段内的第二目标区域，其中，每个时间段时长为所述预设时长，同一时间段内的第一目标区域的频率在预设频率带宽内，同一时间段内的第二目标区域的频率在预设频率带宽内；

对所述多个时间段内的第一目标区域以及多个时间段内的第二目标区域进行异常检测，确定所述语音信息在所述多个时间段内的异常检测结果；

在所述多个时间段内的异常检测结果中至少一个时间段的异常检测结果为异常结果的情况下，确定所述语音信息中包括异常语音片段，并对所述文本内容进行所述目标调整，其中，所述异常语音片段包括所述语音信息中异常结果对应的时间段对应的语音片段。

2.根据权利要求1所述的方法，其特征在于，所述文本内容包括N个文本片段，N为正整数，所述语音信息包括N个语音片段，所述N个语音片段与所述N个文本片段对应，所述语音信息的语谱图包括所述N个子语谱图，所述N个语音片段与所述N个子语谱图对应；

其中，所述在基于所述语谱图，检测到所述语音信息中包括异常语音片段的情况下，对所述文本内容进行目标调整，包括：在基于所述N个子语谱图，检测到所述N个语音片段中包括所述异常语音片段的情况下，对所述文本内容进行所述目标调整。

3.根据权利要求1所述的方法，其特征在于，所述目标调整还包括在所述异常文本片段末尾增加异常提示信息，所述异常提示信息用于提示所述异常文本片段对应的语音片段异常。

4.根据权利要求1所述的方法，其特征在于，所述对所述文本内容进行目标调整之后，还包括：

显示所述异常语音片段对应的控件；

接收对所述控件的第一输入；

响应于所述第一输入，播放所述异常语音片段。

5.一种语音处理装置，所述装置包括：

第一接收模块，用于接收语音信息；

第一显示模块，用于显示调整后的文本内容；

其中，所述调整模块，包括：

确定模块，用于确定所述语谱图中能量值大于预设阈值的多个第一区域以及所述语谱图中能量值小于或等于预设阈值的多个第二区域；

划分模块，用于根据预设时长以及预设频率带宽，对所述多个第一区域进行划分，得到多个时间段内的第一目标区域，并对所述多个第二区域进行划分，得到多个时间段内的第二目标区域，其中，每个时间段时长为所述预设时长，同一时间段内的第一目标区域的频率在预设频率带宽内；

异常检测模块，用于对所述多个时间段内的第一目标区域以及多个时间段内的第二目标区域进行异常检测，确定所述语音信息在所述多个时间段内的异常检测结果；

调整子模块，用于在所述多个时间段内的异常检测结果中至少一个时间段的异常检测结果为异常结果的情况下，确定所述语音信息中包括异常语音片段，并对所述文本内容进行所述目标调整，其中，所述异常语音片段包括所述语音信息中异常结果对应的时间段对应的语音片段。

6.根据权利要求5所述的装置，其特征在于，所述文本内容包括N个文本片段，N为正整数，所述语音信息包括N个语音片段，所述N个语音片段与所述N个文本片段对应，所述语音信息的语谱图包括所述N个子语谱图，所述N个语音片段与所述N个子语谱图对应；

7.根据权利要求5所述的装置，其特征在于，所述目标调整还包括在所述异常文本片段末尾增加异常提示信息，所述异常提示信息用于提示所述异常文本片段对应的语音片段异常。

8.根据权利要求5所述的装置，其特征在于，还包括：

第二显示模块，用于所述调整模块对所述文本内容进行目标调整之后，显示所述异常语音片段对应的控件；

第二接收模块，用于接收对所述控件的第一输入；

播放模块，用于响应于所述第一输入，播放所述异常语音片段。

9.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-4任一项所述的语音处理方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-4任一项所述的语音处理方法的步骤。