CN110310625A

CN110310625A - 语音断句方法及系统

Info

Publication number: CN110310625A
Application number: CN201910604972.4A
Authority: CN
Inventors: 李超凡; 车云飞; 黄为
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-10-08

Abstract

本发明涉及音频处理技术，解决了现有语音断句方法断句准确度较差的问题。技术方案概括为：语音断句方法及系统，通过麦克风阵列采集多路声音信号并进行分帧处理，对各路信号合成后进行语音激活检测，并根据多路信号进行音源方向判断，然后根据音源方向判断结果和语音激活检测结果共同进行语音断句处理。本发明基于麦克风阵列，使用音源方向对语音激活检测结果做辅助判别，通过判断音源方向是否在预设的方向范围内，决定是否采用语音激活检测的检测结果，避免了其他方向的干扰信号对语音断句造成干扰系，提高了语音断句的准确性。

Description

语音断句方法及系统

技术领域

本发明涉及音频处理技术，特别涉及语音断句技术。

背景技术

在智能设备的使用中，语音交互是人机交互的一种重要方式。麦克风是语音交互中声音采集的一个入口，单个麦克风可以达到近场语音的交互要求，而在远场的情况下，就需要配备由多个麦克风组成的麦克风阵列，进行声音的采集。麦克风阵列可以采集多路声音信号，多路语音信号经过检测可以得出音源方向。断句单元的作用是对声音信号中语音成分的存在部分进行判别和提取，将语音信号传输给语音识别单元进行识别，一方面为了避免语音识别单元将干扰信号误识别为语音信号，另一方面为了节省语音识别单元的资源占用。

现有的语音断句方法，一般是采用语音激活检测技术VAD(Voice ActivityDetection)或语音端点检测技术的判断结果进行断句，在安静环境下准确度较高，而在嘈杂的环境中容易被噪声和其他人的语音干扰，从而将干扰信号误判别为语音信号，断句准确度较差。

发明内容

本发明为解决现有语音断句方法断句准确度较差的问题，提供一种语音断句方法及系统。

为解决上述问题，本发明采用的技术方案是：

语音断句方法，包括：

通过麦克风阵列采集多路声音信号，并按照预设的分帧间隔分别对各路声音信号进行分帧处理，得到各路声音信号的声音信号帧；

分别将所有声音信号帧中信号采集时段相同的声音信号帧进行合成，得到各个信号采集时段所对应的总声音信号帧，并分别对各个总声音信号帧进行语音激活检测，判断各个总声音信号帧中是否存在语音信号；

分别根据所有声音信号帧中信号采集时段相同的声音信号帧，处理得到各个信号采集时段所对应的总声音信号帧的音源方向，并分别判断各个信号采集时段所对应的总声音信号帧的音源方向是否在预设的音源方向范围内；

对各个总声音信号帧进行断句，包括：

若任一总声音信号帧的音源方向在预设的音源方向范围内，且该总声音信号帧中存在语音信号，则判定该总声音信号帧的第一断句结果为有效信号帧；

若任一总声音信号帧的音源方向在预设的音源方向范围内，且该总声音信号帧中不存在语音信号，则判定该总声音信号帧的第一断句结果为无效信号帧；

若任一总声音信号帧的音源方向不在预设的音源方向范围内，则判定该总声音信号帧的第一断句结果为无效信号帧。

作为进一步优化，所述对各个总声音信号帧进行断句还包括：

在各个总声音信号帧按照信号采集时段由先到后的顺序基础上，对于任一总声音信号帧：

当该总声音信号帧的上一总声音信号帧的第二断句结果为有效信号帧时，判断从该总声音信号帧开始向前统计是否有至少a个连续的第一断句结果为无效信号帧的总声音信号帧，若是则判定该总声音信号帧的第二断句结果为无效信号帧，否则判定该总声音信号帧的第二断句结果为有效信号帧；

当该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧时，判断在从该总声音信号帧开始向前的b个连续总声音信号帧中，是否存在至少c个第一断句结果为有效信号帧的总声音信号帧，若是则判定该总声音信号帧的第二断句结果为有效信号帧，否则判定该总声音信号帧的第二断句结果为无效信号帧；

其中，当该总声音信号帧没有上一总声音信号帧时，默认该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧；其中，a≥1，b≥1，c≥1，c≤b，a、b和c都是整数。

作为进一步优化，还包括将所有第二断句结果为有效信号帧的总声音信号帧按照信号采集时段由先到后的顺序进行语音识别。

作为进一步优化，所述将所有声音信号帧中信号采集时段相同的声音信号帧进行合成前，分别对各个声音信号帧进行降噪处理和语音增强处理。

语音断句系统，基于上述的语音断句方法，包括麦克风阵列模块、声音信号预处理模块、语音激活检测模块、音源方向检测模块和语音断句模块，所述麦克风阵列模块的输出端与音源方向检测模块的输入端和声音信号预处理模块的输入端连接，所述声音信号预处理模块的输出端与语音激活检测模块的输入端和语音断句模块的输入端连接，所述语音断句模块的输入端与音源方向检测模块的输出端和语音激活检测模块的输出端连接；

所述麦克风阵列模块用于采集多路声音信号，并按照预设的分帧间隔分别对各路声音信号进行分帧处理，并将得到的各路声音信号的声音信号帧传输到音源方向检测模块和声音信号预处理模块；

所述声音信号预处理模块用于分别将所有声音信号帧中信号采集时段相同的声音信号帧进行合成，并将得到的各个信号采集时段所对应的总声音信号帧传输到语音激活检测模块和语音断句模块；

所述语音激活检测模块用于分别对各个总声音信号帧进行语音激活检测，判断各个总声音信号帧中是否存在语音信号，并将各个总声音信号帧的语音激活检测结果传输到语音断句模块；

所述音源方向检测模块用于分别根据所有声音信号帧中信号采集时段相同的声音信号帧，处理得到各个信号采集时段所对应的总声音信号帧的音源方向，并分别判断各个信号采集时段所对应的总声音信号帧的音源方向是否在预设的音源方向范围内，并将判断结果传输到语音断句模块；

所述语音断句模块用于对各个总声音信号帧进行断句，包括：若任一总声音信号帧的音源方向在预设的音源方向范围内，且该总声音信号帧中存在语音信号，则判定该总声音信号帧的第一断句结果为有效信号帧；若任一总声音信号帧的音源方向在预设的音源方向范围内，且该总声音信号帧中不存在语音信号，则判定该总声音信号帧的第一断句结果为无效信号帧；若任一总声音信号帧的音源方向不在预设的音源方向范围内，则判定该总声音信号帧的第一断句结果为无效信号帧。

作为进一步优化，所述语音断句模块对各个总声音信号帧进行断句还包括：在各个总声音信号帧按照信号采集时段由先到后的顺序基础上，对于任一总声音信号帧：当该总声音信号帧的上一总声音信号帧的第二断句结果为有效信号帧时，判断从该总声音信号帧开始向前统计是否有至少a个连续的第一断句结果为无效信号帧的总声音信号帧，若是则判定该总声音信号帧的第二断句结果为无效信号帧，否则判定该总声音信号帧的第二断句结果为有效信号帧；当该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧时，判断在从该总声音信号帧开始向前的b个连续总声音信号帧中，是否存在至少c个第一断句结果为有效信号帧的总声音信号帧，若是则判定该总声音信号帧的第二断句结果为有效信号帧，否则判定该总声音信号帧的第二断句结果为无效信号帧；其中，当该总声音信号帧没有上一总声音信号帧时，默认该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧；其中，a≥1，b≥1，c≥1，c≤b，a、b和c都是整数。

作为进一步优化，上述系统还包括语音识别模块，所述语音识别模块的输入端与语音断句模块的输出端连接；所述语音断句模块还用于将所有第二断句结果为有效信号帧的总声音信号帧按照信号采集时段由先到后的顺序传输到语音识别模块；所述语音识别模块用于对接收到的各个总声音信号帧进行语音识别。

作为进一步优化，所述声音信号预处理模块还用于在将所有声音信号帧中信号采集时段相同的声音信号帧进行合成前，分别对各个声音信号帧进行降噪处理和语音增强处理。

有益效果是：本发明基于麦克风阵列，使用音源方向对语音激活检测结果做辅助判别，通过判断音源方向是否在预设的方向范围内，决定是否采用语音激活检测的检测结果，避免了其他方向的干扰信号对语音断句造成干扰系，提高了语音断句的准确性。

附图说明

图1是本发明实施例的系统结构框图。

具体实施方式

下面结合附图和实施例，详细说明本发明的技术方案。

一方面，本发明提供一种语音断句方法，包括：

对各个总声音信号帧进行断句，包括：

上述方法对采集到的各路声音信号分帧后，根据各路声音信号的各个声音信号帧，将各路声音信号中相应的声音信号帧合成为一路信号，即总声音信号帧，并计算出每个总声音信号帧的音源方向，然后结合总声音信号帧的音源方向和语音激活检测结果共同判断总声音信号帧是有效信号还是无效信号，进而能够为语音识别提供更有效的识别数据。

对上述方法进行进一步优化，具体可以是：

一方面，为了防止语音断句结果的抖动，提高语音断句的准确性，可以结合上一总声音信号帧的第二断句结果和从当前总声音信号帧开始向前的多个总声音信号帧的第一断句结果，根据整体断句情况对当前总声音信号帧的第一断句结果进行修正。

上述具体是，对各个总声音信号帧进行断句还包括：

进一步的，根据上述得到的各个总声音信号帧的第二断句结果，将所有第二断句结果为有效信号帧的总声音信号帧按照信号采集时段由先到后的顺序进行语音识别，根据修正后的断句结果将有效信号提取出进行识别，提高语音识别的准确性，节约语音识别占用的资源。

另一方面，将所有声音信号帧中信号采集时段相同的声音信号帧进行合成前，分别对各个声音信号帧进行降噪处理和语音增强处理，以提高信噪比。

基于上述语音断句方法，本发明提供一种语音断句系统，包括麦克风阵列模块、声音信号预处理模块、语音激活检测模块、音源方向检测模块和语音断句模块，所述麦克风阵列模块的输出端与音源方向检测模块的输入端和声音信号预处理模块的输入端连接，所述声音信号预处理模块的输出端与语音激活检测模块的输入端和语音断句模块的输入端连接，所述语音断句模块的输入端与音源方向检测模块的输出端和语音激活检测模块的输出端连接；

对上述系统进行进一步优化，具体可以是：

一方面，语音断句模块对各个总声音信号帧进行断句还包括：在各个总声音信号帧按照信号采集时段由先到后的顺序基础上，对于任一总声音信号帧：当该总声音信号帧的上一总声音信号帧的第二断句结果为有效信号帧时，判断从该总声音信号帧开始向前统计是否有至少a个连续的第一断句结果为无效信号帧的总声音信号帧，若是则判定该总声音信号帧的第二断句结果为无效信号帧，否则判定该总声音信号帧的第二断句结果为有效信号帧；当该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧时，判断在从该总声音信号帧开始向前的b个连续总声音信号帧中，是否存在至少c个第一断句结果为有效信号帧的总声音信号帧，若是则判定该总声音信号帧的第二断句结果为有效信号帧，否则判定该总声音信号帧的第二断句结果为无效信号帧；其中，当该总声音信号帧没有上一总声音信号帧时，默认该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧；其中，a≥1，b≥1，c≥1，c≤b，a、b和c都是整数。

进一步的，上述系统还包括语音识别模块，所述语音识别模块的输入端与语音断句模块的输出端连接；所述语音断句模块还用于将所有第二断句结果为有效信号帧的总声音信号帧按照信号采集时段由先到后的顺序传输到语音识别模块；所述语音识别模块用于对接收到的各个总声音信号帧进行语音识别。

另一方面，声音信号预处理模块还用于在将所有声音信号帧中信号采集时段相同的声音信号帧进行合成前，分别对各个声音信号帧进行降噪处理和语音增强处理。

实施例

下面具体举例说明本发明的技术方案，本例中，音源方向检测基于波达方向检测技术，音源方向检测模块采用波达方向检测模块。

本例的语音断句系统，如图1所示，包括麦克风阵列模块、声音信号预处理模块、语音激活检测模块、波达方向检测模块、语音断句模块和语音识别模块，麦克风阵列模块的输出端与波达方向检测模块的输入端和声音信号预处理模块的输入端连接，声音信号预处理模块的输出端与语音激活检测模块的输入端和语音断句模块的输入端连接，语音断句模块的输入端与波达方向检测模块的输出端和语音激活检测模块的输出端连接，输出端语音识别模块的输入端连接。

使用时，通过麦克风阵列采集多路声音信号，并按照预设的分帧间隔分别对各路声音信号进行分帧处理，得到各路声音信号的声音信号帧，并将得到的各路声音信号的声音信号帧传输到波达方向检测模块和声音信号预处理模块。

然后声音信号预处理模块分别对各个声音信号帧进行降噪处理和语音增强处理，处理完成后，分别将所有声音信号帧中信号采集时段相同的声音信号帧进行合成，得到各个信号采集时段所对应的总声音信号帧，并将得到的各个信号采集时段所对应的总声音信号帧传输到语音激活检测模块和语音断句模块。

语音激活检测模块分别对各个总声音信号帧进行语音激活检测，判断各个总声音信号帧中是否存在语音信号，并将各个总声音信号帧的语音激活检测结果传输到语音断句模块。

波达方向检测模块分别根据所有声音信号帧中信号采集时段相同的声音信号帧，处理得到各个信号采集时段所对应的总声音信号帧的音源方向，并分别判断各个信号采集时段所对应的总声音信号帧的音源方向是否在预设的音源方向范围内，并将判断结果传输到语音断句模块。

语音断句模块根据各个总声音信号帧的音源方向判断结果和语音激活检测结果进行断句，分为两个阶段：

第一阶段为：

若任一总声音信号帧的音源方向在预设的音源方向范围内，且该总声音信号帧中存在语音信号，则判定该总声音信号帧的第一断句结果为有效信号帧。

若任一总声音信号帧的音源方向在预设的音源方向范围内，且该总声音信号帧中不存在语音信号，则判定该总声音信号帧的第一断句结果为无效信号帧。

第二阶段为：

当该总声音信号帧的上一总声音信号帧的第二断句结果为有效信号帧时，判断从该总声音信号帧开始向前统计是否有至少a个连续的第一断句结果为无效信号帧的总声音信号帧，若是则判定该总声音信号帧的第二断句结果为无效信号帧，否则判定该总声音信号帧的第二断句结果为有效信号帧。

当该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧时，判断在从该总声音信号帧开始向前的b个连续总声音信号帧中，是否存在至少c个第一断句结果为有效信号帧的总声音信号帧，若是则判定该总声音信号帧的第二断句结果为有效信号帧，否则判定该总声音信号帧的第二断句结果为无效信号帧。

经过上述两个阶段后，得到各个总声音信号帧的最终语音断句结果，即第二断句结果。然后语音断句模块将所有第二断句结果为有效信号帧的总声音信号帧按照信号采集时段由先到后的顺序发送到语音识别模块进行语音识别。

Claims

1.语音断句方法，其特征在于，包括：

对各个总声音信号帧进行断句，包括：

2.如权利要求1所述的语音断句方法，其特征在于，所述对各个总声音信号帧进行断句还包括：

3.如权利要求2所述的语音断句方法，其特征在于，还包括将所有第二断句结果为有效信号帧的总声音信号帧按照信号采集时段由先到后的顺序进行语音识别。

4.如权利要求1所述的语音断句方法，其特征在于，所述将所有声音信号帧中信号采集时段相同的声音信号帧进行合成前，分别对各个声音信号帧进行降噪处理和语音增强处理。

5.语音断句系统，基于权利要求1-4任一项所述的语音断句方法，包括麦克风阵列模块、声音信号预处理模块和语音激活检测模块，其特征在于，还包括音源方向检测模块和语音断句模块，所述麦克风阵列模块的输出端与音源方向检测模块的输入端和声音信号预处理模块的输入端连接，所述声音信号预处理模块的输出端与语音激活检测模块的输入端和语音断句模块的输入端连接，所述语音断句模块的输入端与音源方向检测模块的输出端和语音激活检测模块的输出端连接；

6.如权利要求5所述的语音断句系统，其特征在于，所述语音断句模块对各个总声音信号帧进行断句还包括：在各个总声音信号帧按照信号采集时段由先到后的顺序基础上，对于任一总声音信号帧：当该总声音信号帧的上一总声音信号帧的第二断句结果为有效信号帧时，判断从该总声音信号帧开始向前统计是否有至少a个连续的第一断句结果为无效信号帧的总声音信号帧，若是则判定该总声音信号帧的第二断句结果为无效信号帧，否则判定该总声音信号帧的第二断句结果为有效信号帧；当该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧时，判断在从该总声音信号帧开始向前的b个连续总声音信号帧中，是否存在至少c个第一断句结果为有效信号帧的总声音信号帧，若是则判定该总声音信号帧的第二断句结果为有效信号帧，否则判定该总声音信号帧的第二断句结果为无效信号帧；其中，当该总声音信号帧没有上一总声音信号帧时，默认该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧；其中，a≥1，b≥1，c≥1，c≤b，a、b和c都是整数。

7.如权利要求6所述的语音断句系统，其特征在于，还包括语音识别模块，所述语音识别模块的输入端与语音断句模块的输出端连接；所述语音断句模块还用于将所有第二断句结果为有效信号帧的总声音信号帧按照信号采集时段由先到后的顺序传输到语音识别模块；所述语音识别模块用于对接收到的各个总声音信号帧进行语音识别。

8.如权利要求5所述的语音断句系统，其特征在于，所述声音信号预处理模块还用于在将所有声音信号帧中信号采集时段相同的声音信号帧进行合成前，分别对各个声音信号帧进行降噪处理和语音增强处理。