CN108269574B

CN108269574B - 语音信号处理以表示用户声带状态的方法及装置、存储介质、电子设备

Info

Publication number: CN108269574B
Application number: CN201711482746.0A
Authority: CN
Inventors: 孔常青; 高建清; 鹿晓亮
Original assignee: Anhui Iflytek Medical Information Technology Co ltd
Current assignee: Iflytek Medical Technology Co ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2021-05-25
Anticipated expiration: 2037-12-29
Also published as: CN108269574A

Abstract

本公开提供一种语音信号处理方法及装置、存储介质、电子设备。该方法包括：采集待测用户的语音数据，所述语音数据为所述待测用户按照预设条件输入的浊音语音数据；提取所述待测用户的语音数据的声学特征，所述声学特征用于表示所述待测用户的声带状态；将所述声学特征作为输入，经预先构建的语音分类模型处理后，确定出所述待测用户的发音特征。如此方案，可以通过语音信号处理技术确定待测用户的发音特征，实现过程简单方便。

Description

语音信号处理以表示用户声带状态的方法及装置、存储介质、电子设备

技术领域

本公开涉及语音处理领域，具体地，涉及一种语音信号处理方法及装置、存储介质、电子设备。

背景技术

语音作为一种搭载着特定信息的模拟信号，已成为人们社会生活中获取信息和传播信息的重要的手段。通常，语音信号中包含有异常丰富的信息，例如，文本内容或语义、声纹特征、语种或方言、情绪等等，语音信号处理就是在复杂的语音环境中提取有效的语音信息。

在实际应用过程中，通过语音信号处理可以提取用户的个性化信息，进行身份识别，例如，从一段对话中识别出不同的说话人；或者，通过语音信号处理可以对不同用户进行差异归一化处理，提取共性信息，对说话人进行分类识别，例如，可以按性别分类、按语种分类等等。

发明内容

本公开的主要目的是提供一种语音信号处理方法及装置、存储介质、电子设备，可以通过语音信号处理技术确定待测用户的发音特征。

为了实现上述目的，本公开提供一种语音信号处理方法，所述方法包括：

采集待测用户的语音数据，所述语音数据为所述待测用户按照预设条件输入的浊音语音数据；

提取所述待测用户的语音数据的声学特征，所述声学特征用于表示所述待测用户的声带状态；

将所述声学特征作为输入，经预先构建的语音分类模型处理后，确定出所述待测用户的发音特征。

可选地，所述预设条件为不小于预设持续时长，则所述采集待测用户的语音数据，包括：

采集所述待测用户单次输入的浊音语音数据；判断所述单次输入的浊音语音数据的持续时长是否小于所述预设持续时长；如果所述单次输入的浊音语音数据的持续时长不小于所述预设持续时长，则将所述单次输入的浊音语音数据确定为所述待测用户的语音数据；

或者，

采集所述待测用户多次间断输入的浊音语音数据；判断所述多次间断输入的浊音语音数据的总持续时长是否小于所述预设持续时长；如果所述多次间断输入的浊音语音数据的总持续时长不小于所述预设持续时长，则将所述多次间断输入的浊音语音数据确定为所述待测用户的语音数据。

可选地，所述预设条件为不小于预设间断次数，则所述采集待测用户的语音数据，包括：

采集所述待测用户多次间断输入的浊音语音数据；判断所述多次间断输入的浊音语音数据的间断次数是否小于所述预设间断次数；如果所述多次间断输入的浊音语音数据的间断次数不小于所述预设间断次数，则将所述多次间断输入的浊音语音数据确定为所述待测用户的语音数据。

可选地，所述提取所述待测用户的语音数据的声学特征，包括：

将所述待测用户的语音数据切分为至少一个语音单元，提取各语音单元如下特征中的至少一个，作为所述待测用户的语音数据的声学特征：能量特征、基频特征、短时过零率特征、停顿特征、频率微扰特征、振幅微扰特征、谐波噪声比、循环周期密度熵、去趋势波动分析特征、非线性的基频变化特征、声纹特征，

其中，

所述频率微扰特征用于表示相邻基音周期之间声波基音频率的变化，

所述振幅微扰特征用于表示相邻基音周期之间声波幅度的变化，

所述循环周期密度熵用于表示所述语音信号周期性的不确定性，

所述去趋势波动分析特征用于表示随机噪声自相似程度的语音特征，

所述非线性的基频变化特征用于表示语音单元对应的语音信号的平稳性。

可选地，如果采集到N条待测用户的语音数据，N≥2，则所述提取所述待测用户的语音数据的声学特征，包括：

分别提取每条待测用户的语音数据的声学特征，并计算该声学特征在 N*M个语音单元的特征方差，作为所述N条待测用户的语音数据的声学特征，M表示每条待测用户的语音数据切分出的语音单元的数目。

可选地，构建所述语音分类模型的方式为：

采集样本用户的样本语音数据，所述样本语音数据为所述样本用户按照预设条件输入的浊音语音数据，所述样本用户包括正常发音特征用户以及异常发音特征用户；

提取所述样本语音数据的声学特征；

确定所述语音分类模型的拓扑结构；

利用所述拓扑结构，以及所述样本语音数据的声学特征，训练所述语音分类模型，直至所述语音分类模型输出的发音特征与所述样本用户具有的发音特征相符。

本公开提供一种语音信号处理装置，所述装置包括：

语音数据采集模块，用于采集待测用户的语音数据，所述语音数据为所述待测用户按照预设条件输入的浊音语音数据；

声学特征提取模块，用于提取所述待测用户的语音数据的声学特征，所述声学特征用于表示所述待测用户的声带状态；

发音特征确定模块，用于将所述声学特征作为输入，经预先构建的语音分类模型处理后，确定出所述待测用户的发音特征。

可选地，所述预设条件为不小于预设持续时长，则

所述语音数据采集模块，用于采集所述待测用户单次输入的浊音语音数据；判断所述单次输入的浊音语音数据的持续时长是否小于所述预设持续时长；如果所述单次输入的浊音语音数据的持续时长不小于所述预设持续时长，则将所述单次输入的浊音语音数据确定为所述待测用户的语音数据；

或者，

所述语音数据采集模块，用于采集所述待测用户多次间断输入的浊音语音数据；判断所述多次间断输入的浊音语音数据的总持续时长是否小于所述预设持续时长；如果所述多次间断输入的浊音语音数据的总持续时长不小于所述预设持续时长，则将所述多次间断输入的浊音语音数据确定为所述待测用户的语音数据。

可选地，所述预设条件为不小于预设间断次数，则所述语音数据采集模块，用于采集所述待测用户多次间断输入的浊音语音数据；判断所述多次间断输入的浊音语音数据的间断次数是否小于所述预设间断次数；如果所述多次间断输入的浊音语音数据的间断次数不小于所述预设间断次数，则将所述多次间断输入的浊音语音数据确定为所述待测用户的语音数据。

可选地，所述声学特征提取模块，用于将所述待测用户的语音数据切分为至少一个语音单元，提取各语音单元如下特征中的至少一个，作为所述待测用户的语音数据的声学特征：能量特征、基频特征、短时过零率特征、停顿特征、频率微扰特征、振幅微扰特征、谐波噪声比、循环周期密度熵、去趋势波动分析特征、非线性的基频变化特征、声纹特征，

其中，

可选地，如果采集到N条待测用户的语音数据，N≥2，则所述声学特征提取模块，用于分别提取每条待测用户的语音数据的声学特征，并计算该声学特征在N*M个语音单元的特征方差，作为所述N条待测用户的语音数据的声学特征，M表示每条待测用户的语音数据切分出的语音单元的数目。

可选地，所述装置还包括：

样本语音数据采集模块，用于采集样本用户的样本语音数据，所述样本语音数据为所述样本用户按照预设条件输入的浊音语音数据，所述样本用户包括正常发音特征用户以及异常发音特征用户；

样本声学特征提取模块，用于提取所述样本语音数据的声学特征；

拓扑结构确定模块，用于确定所述语音分类模型的拓扑结构；

语音分类模型训练模块，用于利用所述拓扑结构，以及所述样本语音数据的声学特征，训练所述语音分类模型，直至所述语音分类模型输出的发音特征与所述样本用户具有的发音特征相符。

本公开提供一种电子设备，所述电子设备包括；

上述的存储设备；以及

处理器，用于执行所述存储设备中的指令。

本公开方案，可以采集待测用户按照预设条件输入的浊音语音数据，作为待测用户的语音数据，然后从中提取出表示待测用户的声带状态的声学特征，将声学特征作为模型输入，经模型处理后可以确定出待测用户的发音特征。如此方案，实现过程简单方便，处理过程省时省力，且对人员没有专业技能要求。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为本公开方案语音信号处理方法的流程示意图；

图2为本公开方案中构建语音分类模型的流程示意图；

图3为本公开方案语音信号处理装置的构成示意图；

图4为本公开方案用于语音信号处理的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

参见图1，示出了本公开语音信号处理方法的流程示意图。可以包括以下步骤：

S101，采集待测用户的语音数据，所述语音数据为所述待测用户按照预设条件输入的浊音语音数据。

本公开方案进行语音信号处理时，可以先采集待测用户的语音数据。作为一种示例，可以通过智能终端的麦克风采集待测用户的语音数据，举例来说，智能终端可以为手机、个人电脑、平板电脑、智能音箱等日常电子设备；或者，智能终端也可以是专用设备，本公开方案对此可不做具体限定。

本公开方案中，可以通过语音信号处理技术预测待测用户的发音特征，举例来说，发音特征可以体现为声音是否清脆响亮、发音是否平稳等。

对于需要预测用户发音特征的场景，例如，播音主持、诗歌朗诵等工作，通常需要用户的发声清脆响亮、气息声少、且具有一定的平稳性，可以基于本公开方案进行预测，进而根据预测结果进行人员筛选；再例如，日常对家庭成员进行发音特征水平预测，如果预测结果表示用户的发音特征发生变化，说明用户声带可能受损，可以进行针对性恢复训练，进一步地，如果中老年人在非用嗓过度的情况下发音特征发生变化，可以适当进行帕金森预防训练等等，本公开方案对应用场景可不做具体限定。

作为一种示例，本公开方案可以将用户划分为两种类型：一种是正常发音特征用户，这种类型用户的发声通常较为清脆响亮、气息声少、且具有一定的平稳性；一种是异常发音特征用户，这种类型用户的发声通常较为嘶哑低沉、气息声多、发音不平稳。

在语音学中，可以将发音时声带振动的音称为浊音，多数语言中的元音均为浊音，鼻音、边音、半元音也是浊音。为了获得待测用户的发音特征，本公开方案可以采集待测用户按照预设条件输入的浊音语音数据，进行发音特征分析。

下面以发元音/a/为例，对本公开方案采集待测用户的语音数据的过程进行解释说明。

1.预设条件为不小于预设持续时长

作为一种示例，可以采集待测用户单次输入的浊音语音数据；判断单次输入的浊音语音数据的持续时长是否小于预设持续时长；如果单次输入的浊音语音数据的持续时长不小于预设持续时长，则将单次输入的浊音语音数据确定为待测用户的语音数据。

举例来说，预设持续时长可以为10s，即，待测用户单次发元音/a/的持续时长不小于10s时，可以将该次语音录入确定为本公开方案中待测用户的语音数据。

2.预设条件为不小于预设持续时长

作为一种示例，可以采集待测用户多次间断输入的浊音语音数据；判断多次间断输入的浊音语音数据的总持续时长是否小于预设持续时长；如果多次间断输入的浊音语音数据的总持续时长不小于预设持续时长，则将多次间断输入的浊音语音数据确定为待测用户的语音数据。

举例来说，预设持续时长可以为10s，即，待测用户可以多次间断的发元音/a/，只要叠加起来的总持续时长不小于10s，便可将这多次间断的语音录入确定为本公开方案中待测用户的语音数据。

3.预设条件为不小于预设间断次数

作为一种示例，可以采集待测用户多次间断输入的浊音语音数据；判断多次间断输入的浊音语音数据的间断次数是否小于预设间断次数；如果多次间断输入的浊音语音数据的间断次数不小于预设间断次数，则将多次间断输入的浊音语音数据确定为待测用户的语音数据。

举例来说，预设间断次数可以为15次，即，待测用户可以多次间断发元音/a/，只要累加起来的总间断次数不小于15次，便可将这多次间断的语音录入确定为本公开方案中待测用户的语音数据。

需要说明的是，本公开方案对预设持续时长、预设间断次数的取值可不做限定，具体可结合实际应用需求确定。

作为一种示例，可以按照上述方式，采集一条满足预设条件的浊音语音数据，作为待测用户的语音数据；也可以采集N条满足预设条件的浊音语音数据，作为待测用户的语音数据，N≥2，例如N＝20，本公开方案对此可不做限定，具体可结合实际应用需求确定。其中，方式2、3中多次间断输入的满足预设条件的浊音语音数据，属于一条待测用户的语音数据。

S102，提取所述待测用户的语音数据的声学特征，所述声学特征用于表示所述待测用户的声带状态。

通常，不同发音特征的用户具有不同的声学特征，本公开方案可以从待测用户的语音数据中提取声学特征，并据此进行发音特征分析。具体地，声学特征可以包括以下特征中的至少一项：

1.能量特征

对于异常发音特征用户来说，一般无法发出较大声音，即语音幅度较小，对应于此，可以通过能量特征来表征这一特点。

作为一种示例，可以将待测用户的语音数据切分为至少一个语音单元，提取每个语音单元的能量特征。例如，能量特征可以体现为能量均值和/或能量方差。

举例来说，可以对待测用户的语音数据进行分帧处理，得到多个语音数据帧；然后再基于每个语音数据帧对应的短时平均能量，计算各语音单元的能量均值和/或能量方差。

作为一种示例，可以按照25ms/帧进行分帧处理，若待测用户的语音数据为10s，按照0ms～25ms、25ms～50ms，以此类推可以顺序切分出400帧；或者，为了增多语音数据帧的数量，可以采用帧移方案进行分帧处理，如帧移为10ms，按照0ms～25ms、10ms～35ms、20ms～45ms，以此类推大概可以切分出1000帧。本公开方案对分帧处理的实现方式可不做具体限定。

本公开方案中，语音单元可以是语音数据帧；或者，语音单元可以是待测用户的语音数据，即，基于每个语音数据帧的短时平均能量，计算整段语音数据的能量特征；或者，语音单元可以是其他自定义的区间，例如，可以将整段语音数据均分为20个区间，若待测用户的语音数据为10s，结合上文所举帧移方案的示例，每个区间可以包含50个语音数据帧，共计500ms，可以基于各区间包含的语音数据帧的短时平均能量，计算该区间的能量特征。本公开方案对语音单元的粒度可不做具体限定。

可以理解地，以下声学特征提取过程中涉及的分帧处理的实现方式、语音单元的粒度等，均可参照此处所做介绍，下文不再一一详述。

2.基频特征

用户发浊音时，气流通过声门使声带产生张弛震荡式振动，产生准周期的激励脉冲串，这种声带振动的频率可以称为基音频率，简称基频，对应的周期可以称为基音周期。

对于异常发音特征用户来说，一般发音比较低沉、音调较为单一，对应于此，可以通过基频特征来表征这一特点。

作为一种示例，可以将待测用户的语音数据切分为至少一个语音单元，提取每个语音单元的基频特征。例如，基频特征可以体现为基频均值和/或基频方差。

3.短时过零率特征

短时过零率可用于表示语音信号波形穿过横轴(零电平)的次数，对于正常发音特征用户来说，浊音段通常有较低的过零率。

作为一种示例，可以将待测用户的语音数据切分为至少一个语音单元，提取每个语音单元的短时过零率特征。例如，短时过零率特征可以体现为过零次数和/或过零比例，其中，过零比例可以是语音单元的过零次数与语音单元的总采样点数之间的比例。

以常用的8k采样频率为例，表示每秒有8千个采样点，可以结合每个语音单元的时长，计算出语音单元包含的总采样点数。本公开方案对采样频率可不做具体限定。

4.停顿特征

对于异常发音特征用户来说，可能无法进行连续发音，导致除了多次间断采集浊音语音数据出现停顿之外，还可能在其他位置出现停顿，故本公开方案可以提取待测用户的语音数据的停顿特征。

作为一种示例，可以将待测用户的语音数据切分为至少一个语音单元，提取每个语音单元的停顿特征。例如，停顿特征可以体现为停顿次数和/或停顿时长和/或停顿比例。

举例来说，可以利用语音端点检测工具，对语音数据中的静音进行检测，通常，存在静音的地方就是用户出现停顿的地方，根据检测得到的端点值，可以得到出现停顿的位置、每次停顿的时长，进而提取出停顿特征。

具体地，可以分别对每个语音单元进行静音检测，得到各语音单元的停顿特征。或者，当语音单元的粒度为语音数据帧、区间时，在实际应用过程中，可能有些语音数据帧、区间均处于停顿之中，即整个语音数据帧、整个区间都没有声音，对应于此，本公开方案可以对整段语音数据进行静音检测，得到整段语音数据的总停顿次数、总停顿时长、基于总停顿时长与整段语音数据的总时长计算出的停顿比例，作为各语音单元的停顿特征。

5.频率微扰特征

作为一种示例，可以将待测用户的语音数据切分为至少一个语音单元，提取每个语音单元的频率微扰特征，频率微扰特征可用于表示相邻基音周期之间声波基音频率的变化。

通常，语音信号中的频率微扰与声门区的功能状态是一致的，正常发音特征用户在相邻周期间的频率相同者居多，不同者甚少，即频率微扰值很小；异常发音特征用户的频率微扰值较大，致使声音粗糙。举例来说，本公开方案中的频率微扰特征，可以体现为以下物理量中的至少一个：Jitter、Jitter(Abs)、 RAP(英文：Relative AveragePerturbation，中文：相对平均扰动)、PPQ(英文：Period Perturbation Quotient，中文：周期微扰商)、DDP(英文：Difference of Differences of Periods，中文：周期间平均绝对差与平均周期比)等，主要反映粗糙声程度，其次反映嘶哑声程度。

Jitter用于表示发音过程中基频的绝对变化，可以体现为以下公式：

其中，T_i表示第i个语音子单元的基音周期值，K表示语音单元包括的语音子单元的数目。可以理解地，语音单元的的粒度可以体现为区间，或者可以体现为整段语音数据；语音子单元的粒度可以体现为语音数据帧，或者可以体现为由语音单元均分的至少两个子区间。

Jitter(Abs)用于表示发音过程中基频的相对变化，可以体现为以下公式：

RAP、PPQ、DDP的计算过程可参照相关技术实现，此处不做详述。

6.振幅微扰特征

作为一种示例，可以将待测用户的语音数据切分为至少一个语音单元，提取每个语音单元的振幅微扰特征，振幅微扰特征可用于表示相邻基音周期之间声波幅度的变化。

通常，正常发音特征用户在相邻周期间的振幅微扰值较小，说明声带震动较为稳定、发音的平稳性较强。举例来说，本公开方案中的振幅微扰特征，可以体现为以下物理量中的至少一个：Shimmer、Shimmer(dB)、APQ3(英文：three-point Amplitude PerturbationQuotient，中文：三点振幅微扰商)、 APQ5(英文：five-point Amplitude PerturbationQuotient，中文：五点振幅微扰商)、APQ(英文：Amplitude Perturbation Quotient，中文：振幅微扰商)、 DDA(英文：Difference of Differences of Amplitudes，中文：相邻周期幅度差的平均绝对差)，主要反映嘶哑声程度。

Shimmer(dB)用于表示发音过程中振幅的绝对变化，可以体现为以下公式：

其中，A_i表示第i个语音子单元的振幅。具体地，语音子单元的粒度可以参照上文物理量Jitter处所做介绍，此处不再详述。

Shimmer用于表示发音过程中振幅的相对变化，可以体现为以下公式：

APQ3、APQ5、APQ、DDA的计算过程可参照相关技术实现，此处不做详述。

7.谐波噪声比

作为一种示例，可以将待测用户的语音数据切分为至少一个语音单元，提取每个语音单元的谐波成分和噪声成分，计算谐波噪声比(英文：Harmonic to Noise Ratio，简称：HNR)，主要反映嘶哑声程度。

需要说明的是，本公开方案中的噪声成分不是环境噪声，而是待测用户发声时由于声门非完全关闭引起的声门噪声。提取谐波成分、噪声成分的方式、计算谐波噪声比的方式，可参照相关技术实现，此处不做详述。

8.循环周期密度熵

作为一种示例，可以将待测用户的语音数据切分为至少一个语音单元，提取每个语音单元的循环周期密度熵，循环周期密度熵可用于表示语音信号周期性的不确定性。

9.去趋势波动分析特征

对于异常发音特征用户来说，在发声时气流经过声带可能会产生随机噪声，夹杂进待测用户的语音数据中，对应于此，可以通过去趋势波动分析特征来表征这一特点。

作为一种示例，可以将待测用户的语音数据切分为至少一个语音单元，提取每个语音单元的去趋势波动分析特征，去趋势波动分析特征可用于表示随机噪声自相似程度的语音特征。

去趋势波动分析(英文：Detrended Fluctuation Analysis，简称：DFA) 是一类基于非线性动力系统理论的新型语音特征，具体实施过程主要分为两大部分：语音数据变化趋势求取、语音数据围绕其变化趋势上下波动情况分析。具体实现过程可参照相关技术，此处不做详述。

10.非线性的基频变化特征

作为一种示例，可以将待测用户的语音数据切分为至少一个语音单元，提取每个语音单元的非线性的基频变化特征，非线性的基频变化特征可用于表示语音单元对应的语音信号的平稳性。举例来说，非线性的基频变化特征可以体现为基频周期熵(英文：PitchPeriod Entropy，简称：PPE)。具体计算过程可参照相关技术实现，此处不做详述。

11.声纹特征

作为一种示例，可以将待测用户的语音数据切分为至少一个语音单元，提取每个语音单元的声纹特征。

举例来说，声纹特征可以是ivector特征；或者，可以是神经网络提取的其他声纹特征，例如MFCC(Mel-Frequency Cepstral Coefficients，MFCC)特征，本公开方案对此可不做具体限定。

作为一种示例，如果采集到N条待测用户的语音数据，还可以提取如下声学特征：分别提取每条待测用户的语音数据的声学特征，并计算该声学特征在N*M个语音单元的特征方差，作为N条待测用户的语音数据的声学特征，M表示每条待测用户的语音数据切分出的语音单元的数目。

通过特征方差可以反映待测用户在不同时刻发音时产生的统计参数差异，对于异常发音特征用户来说，声学特征可能会随着时间发生变化，稳定性较差。

在实际应用过程中，短时过零率特征、停顿特征、声纹特征可以是从整段语音数据中提取出，作为各语音单元的声学特征，即，这些声学特征的特征方差不会发生变化，可以不计算这些声学特征的特征方差。本公开方案对此可不做限定，具体可结合实际应用需求确定。

S103，将所述声学特征作为输入，经预先构建的语音分类模型处理后，确定出所述待测用户的发音特征。

从待测用户的语音数据中提取出声学特征后，可以利用预先构建的语音分类模型进行模型处理，输出待测用户的发音特征。

需要说明的是，如果声学特征体现为上述特征中的任一项，可以直接将声学特征作为模型输入；如果声学特征体现为上述特征中的至少两项，则可将至少两项声学特征拼接后，再作为模型输入，此时，各声学特征对应的语音单元的粒度可以相同，也可以不同，本公开方案对此可不做具体限定。

作为一种示例，针对一名待测用户可以进行一次模型预测；也可以进行多次模型预测，并根据多次预测结果的均值确定待测用户的发音特征，或者将多次预测结果中出现次数最多的发音特征作为待测用户的发音特征，具体可结合实际应用需求而定，本公开方案对预测次数、确定发音特征的方式等，可不做具体限定。

由上文介绍可知，本公开方案实现过程简单方便，处理过程省时省力，且对人员没有专业技能要求。作为一种示例，本公开方案预测中老年人发音特征水平，模型确定出的发音特征不用于替代医院的常规检测，可协助常规检测进行判断；且模型预测过程中只需要待测用户录入语音数据即可，具体的处理过程不会直接作用于待测用户，且不会对待测用户的身体机能产生任何影响。

下面对本公开方案中构建语音分类模型的过程进行解释说明。具体可参见图2所示流程图，可以包括以下步骤：

S201，采集样本用户的样本语音数据，所述样本语音数据为所述样本用户按照预设条件输入的浊音语音数据，所述样本用户包括正常发音特征用户以及异常发音特征用户。

在进行模型训练时，可以采集大量样本用户的样本语音数据。其中，样本用户可以包括正常发音特征用户、异常发音特征用户，作为一种示例，可以使样本用户的年龄段尽量相仿，有助于降低年龄不同导致的生理特性对分类准确度的影响。

采集样本用户的样本语音数据的实现过程，可参照上文S101处所做介绍，此处不做详述。

S202，提取所述样本语音数据的声学特征。

具体实现过程，可参照上文S102处所做介绍，此处不做详述。

S203，确定所述语音分类模型的拓扑结构。

作为一种示例，本公开方案中的拓扑结构可以体现为：CNN(英文： ConvolutionalNeural Network，中文：卷积神经网络)、RNN(英文：Recurrent neural Network，中文：循环神经网络)、DNN(英文：Deep Neural Network，中文：深度神经网络)等，本公开方案对此可不做具体限定。

作为一种示例，神经网络可以包含输入层、隐层以及输出层。其中，输入层可以为声学特征；隐层可以为一层，也可以为多层，每层的节点数目可以设为16～32之间，可以采用sigmoid作为激活函数；输出层可以包含2个输出节点，分别代表正常发音特征用户、异常发音特征用户，例如，可以用“0”表示正常发音特征用户，用“1”表示异常发音特征用户；或者，输出层可以包含1个输出节点，表示待测用户被识别为正常发音特征用户的概率。本公开方案对神经网络各层的具体表现形式可不做限定。

S204，利用所述拓扑结构，以及所述样本语音数据的声学特征，训练所述语音分类模型，直至所述语音分类模型输出的发音特征与所述样本用户具有的发音特征相符。

确定出模型的拓扑结构，提取到样本语音数据的声学特征后，便可进行模型训练。作为一种示例，训练过程可以采用交叉熵准则，使用常用的随机梯度下降法更新优化模型参数，确保模型训练完成时，模型输出的预测发音特征与样本用户真实具有的发音特征相符。其中，语音分类模型输出的发音特征与样本用户具有的发音特征相符，可以是模型预测的发音特征与样本用户具有的发音特征完全相同；或者，可以是模型预测发音特征的准确率达到预设值，例如90％，本公开方案对此可不做具体限定。

可以理解地，本公开方案的语音分类模型主要是基于正常发音特征用户、异常发音特征用户在声学层面的特性，通过统计分析、模型训练的方式，得到不同发音特征的分类规律，进而根据该分类规律确定一般用户，即待测用户的发音特征。

参见图3，示出了本公开语音信号处理装置的构成示意图。所述装置可以包括：

语音数据采集模块301，用于采集待测用户的语音数据，所述语音数据为所述待测用户按照预设条件输入的浊音语音数据；

声学特征提取模块302，用于提取所述待测用户的语音数据的声学特征，所述声学特征用于表示所述待测用户的声带状态；

发音特征确定模块303，用于将所述声学特征作为输入，经预先构建的语音分类模型处理后，确定出所述待测用户的发音特征。

可选地，所述预设条件为不小于预设持续时长，则

或者，

其中，

可选地，所述装置还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

参见图4，示出了本公开用于语音信号处理的电子设备400的结构示意图。参照图4，电子设备400包括处理组件401，其进一步包括一个或多个处理器，以及由存储介质402所代表的存储设备资源，用于存储可由处理组件401的执行的指令，例如应用程序。存储介质402中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件401 被配置为执行指令，以执行上述语音信号处理方法。

电子设备400还可以包括一个电源组件403，被配置为执行电子设备400 的电源管理；一个有线或无线网络接口404，被配置为将电子设备400连接到网络；和一个输入输出(I/O)接口405。电子设备400可以操作基于存储在存储介质402的操作系统，例如WindowsServerTM，Mac OS XTM， UnixTM,LinuxTM，FreeBSDTM或类似。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种语音信号处理方法，其特征在于，所述方法包括：

提取所述待测用户的语音数据的声学特征，包括将所述待测用户的语音数据切分为至少一个语音单元，从各语音单元中提取声学特征；所述声学特征用于表示所述待测用户的声带状态，包括获得待测用户的多条语音数据中同一个声学特征的特征方差，所述特征方差用于表征所述待测用户在不同时刻的发音变化；

2.根据权利要求1所述的方法，其特征在于，所述预设条件为不小于预设持续时长，则所述采集待测用户的语音数据，包括：

或者，

3.根据权利要求1所述的方法，其特征在于，所述预设条件为不小于预设间断次数，则所述采集待测用户的语音数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述提取所述待测用户的语音数据的声学特征，包括：

其中，

5.根据权利要求4所述的方法，其特征在于，如果采集到N条待测用户的语音数据，N≥2，则所述提取所述待测用户的语音数据的声学特征，包括：

分别提取每条待测用户的语音数据的声学特征，并计算该声学特征在N*M个语音单元的特征方差，作为所述N条待测用户的语音数据的声学特征，M表示每条待测用户的语音数据切分出的语音单元的数目。

6.根据权利要求1至5任一项所述的方法，其特征在于，构建所述语音分类模型的方式为：

提取所述样本语音数据的声学特征；

确定所述语音分类模型的拓扑结构；

7.一种语音信号处理装置，其特征在于，所述装置包括：

声学特征提取模块，用于提取所述待测用户的语音数据的声学特征，包括将所述待测用户的语音数据切分为至少一个语音单元，从各语音单元中提取声学特征；所述声学特征用于表示所述待测用户的声带状态，包括获得待测用户的多条语音数据中同一个声学特征的特征方差，所述特征方差用于表征所述待测用户在不同时刻的发音变化；

8.根据权利要求7所述的装置，其特征在于，所述预设条件为不小于预设持续时长，则

或者，

9.根据权利要求7所述的装置，其特征在于，所述预设条件为不小于预设间断次数，则

所述语音数据采集模块，用于采集所述待测用户多次间断输入的浊音语音数据；判断所述多次间断输入的浊音语音数据的间断次数是否小于所述预设间断次数；如果所述多次间断输入的浊音语音数据的间断次数不小于所述预设间断次数，则将所述多次间断输入的浊音语音数据确定为所述待测用户的语音数据。

10.根据权利要求7所述的装置，其特征在于，

所述声学特征提取模块，用于将所述待测用户的语音数据切分为至少一个语音单元，提取各语音单元如下特征中的至少一个，作为所述待测用户的语音数据的声学特征：能量特征、基频特征、短时过零率特征、停顿特征、频率微扰特征、振幅微扰特征、谐波噪声比、循环周期密度熵、去趋势波动分析特征、非线性的基频变化特征、声纹特征，

其中，

11.根据权利要求10所述的装置，其特征在于，如果采集到N条待测用户的语音数据，N≥2，则

所述声学特征提取模块，用于分别提取每条待测用户的语音数据的声学特征，并计算该声学特征在N*M个语音单元的特征方差，作为所述N条待测用户的语音数据的声学特征，M表示每条待测用户的语音数据切分出的语音单元的数目。

12.根据权利要求7至11任一项所述的装置，其特征在于，所述装置还包括：

13.一种存储设备，其中存储有多条指令，其特征在于，所述指令由处理器加载，执行权利要求1至6任一项所述方法的步骤。

14.一种电子设备，其特征在于，所述电子设备包括：

权利要求13所述的存储设备；以及

处理器，用于执行所述存储设备中的指令。