CN110310625A - 语音断句方法及系统 - Google Patents
语音断句方法及系统 Download PDFInfo
- Publication number
- CN110310625A CN110310625A CN201910604972.4A CN201910604972A CN110310625A CN 110310625 A CN110310625 A CN 110310625A CN 201910604972 A CN201910604972 A CN 201910604972A CN 110310625 A CN110310625 A CN 110310625A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- signal frame
- total
- frame
- punctuate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000001514 detection method Methods 0.000 claims abstract description 57
- 230000004913 activation Effects 0.000 claims abstract description 39
- 230000005236 sound signal Effects 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims description 19
- 238000009432 framing Methods 0.000 claims description 8
- 239000004568 cement Substances 0.000 claims description 7
- 238000011946 reduction process Methods 0.000 claims description 7
- 235000013399 edible fruits Nutrition 0.000 claims description 4
- 238000003491 array Methods 0.000 abstract description 2
- 230000015572 biosynthetic process Effects 0.000 abstract description 2
- 238000003786 synthesis reaction Methods 0.000 abstract description 2
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及音频处理技术,解决了现有语音断句方法断句准确度较差的问题。技术方案概括为:语音断句方法及系统,通过麦克风阵列采集多路声音信号并进行分帧处理,对各路信号合成后进行语音激活检测,并根据多路信号进行音源方向判断,然后根据音源方向判断结果和语音激活检测结果共同进行语音断句处理。本发明基于麦克风阵列,使用音源方向对语音激活检测结果做辅助判别,通过判断音源方向是否在预设的方向范围内,决定是否采用语音激活检测的检测结果,避免了其他方向的干扰信号对语音断句造成干扰系,提高了语音断句的准确性。
Description
技术领域
本发明涉及音频处理技术,特别涉及语音断句技术。
背景技术
在智能设备的使用中,语音交互是人机交互的一种重要方式。麦克风是语音交互中声音采集的一个入口,单个麦克风可以达到近场语音的交互要求,而在远场的情况下,就需要配备由多个麦克风组成的麦克风阵列,进行声音的采集。麦克风阵列可以采集多路声音信号,多路语音信号经过检测可以得出音源方向。断句单元的作用是对声音信号中语音成分的存在部分进行判别和提取,将语音信号传输给语音识别单元进行识别,一方面为了避免语音识别单元将干扰信号误识别为语音信号,另一方面为了节省语音识别单元的资源占用。
现有的语音断句方法,一般是采用语音激活检测技术VAD(Voice ActivityDetection)或语音端点检测技术的判断结果进行断句,在安静环境下准确度较高,而在嘈杂的环境中容易被噪声和其他人的语音干扰,从而将干扰信号误判别为语音信号,断句准确度较差。
发明内容
本发明为解决现有语音断句方法断句准确度较差的问题,提供一种语音断句方法及系统。
为解决上述问题,本发明采用的技术方案是:
语音断句方法,包括:
通过麦克风阵列采集多路声音信号,并按照预设的分帧间隔分别对各路声音信号进行分帧处理,得到各路声音信号的声音信号帧;
分别将所有声音信号帧中信号采集时段相同的声音信号帧进行合成,得到各个信号采集时段所对应的总声音信号帧,并分别对各个总声音信号帧进行语音激活检测,判断各个总声音信号帧中是否存在语音信号;
分别根据所有声音信号帧中信号采集时段相同的声音信号帧,处理得到各个信号采集时段所对应的总声音信号帧的音源方向,并分别判断各个信号采集时段所对应的总声音信号帧的音源方向是否在预设的音源方向范围内;
对各个总声音信号帧进行断句,包括:
若任一总声音信号帧的音源方向在预设的音源方向范围内,且该总声音信号帧中存在语音信号,则判定该总声音信号帧的第一断句结果为有效信号帧;
若任一总声音信号帧的音源方向在预设的音源方向范围内,且该总声音信号帧中不存在语音信号,则判定该总声音信号帧的第一断句结果为无效信号帧;
若任一总声音信号帧的音源方向不在预设的音源方向范围内,则判定该总声音信号帧的第一断句结果为无效信号帧。
作为进一步优化,所述对各个总声音信号帧进行断句还包括:
在各个总声音信号帧按照信号采集时段由先到后的顺序基础上,对于任一总声音信号帧:
当该总声音信号帧的上一总声音信号帧的第二断句结果为有效信号帧时,判断从该总声音信号帧开始向前统计是否有至少a个连续的第一断句结果为无效信号帧的总声音信号帧,若是则判定该总声音信号帧的第二断句结果为无效信号帧,否则判定该总声音信号帧的第二断句结果为有效信号帧;
当该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧时,判断在从该总声音信号帧开始向前的b个连续总声音信号帧中,是否存在至少c个第一断句结果为有效信号帧的总声音信号帧,若是则判定该总声音信号帧的第二断句结果为有效信号帧,否则判定该总声音信号帧的第二断句结果为无效信号帧;
其中,当该总声音信号帧没有上一总声音信号帧时,默认该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧;其中,a≥1,b≥1,c≥1,c≤b,a、b和c都是整数。
作为进一步优化,还包括将所有第二断句结果为有效信号帧的总声音信号帧按照信号采集时段由先到后的顺序进行语音识别。
作为进一步优化,所述将所有声音信号帧中信号采集时段相同的声音信号帧进行合成前,分别对各个声音信号帧进行降噪处理和语音增强处理。
语音断句系统,基于上述的语音断句方法,包括麦克风阵列模块、声音信号预处理模块、语音激活检测模块、音源方向检测模块和语音断句模块,所述麦克风阵列模块的输出端与音源方向检测模块的输入端和声音信号预处理模块的输入端连接,所述声音信号预处理模块的输出端与语音激活检测模块的输入端和语音断句模块的输入端连接,所述语音断句模块的输入端与音源方向检测模块的输出端和语音激活检测模块的输出端连接;
所述麦克风阵列模块用于采集多路声音信号,并按照预设的分帧间隔分别对各路声音信号进行分帧处理,并将得到的各路声音信号的声音信号帧传输到音源方向检测模块和声音信号预处理模块;
所述声音信号预处理模块用于分别将所有声音信号帧中信号采集时段相同的声音信号帧进行合成,并将得到的各个信号采集时段所对应的总声音信号帧传输到语音激活检测模块和语音断句模块;
所述语音激活检测模块用于分别对各个总声音信号帧进行语音激活检测,判断各个总声音信号帧中是否存在语音信号,并将各个总声音信号帧的语音激活检测结果传输到语音断句模块;
所述音源方向检测模块用于分别根据所有声音信号帧中信号采集时段相同的声音信号帧,处理得到各个信号采集时段所对应的总声音信号帧的音源方向,并分别判断各个信号采集时段所对应的总声音信号帧的音源方向是否在预设的音源方向范围内,并将判断结果传输到语音断句模块;
所述语音断句模块用于对各个总声音信号帧进行断句,包括:若任一总声音信号帧的音源方向在预设的音源方向范围内,且该总声音信号帧中存在语音信号,则判定该总声音信号帧的第一断句结果为有效信号帧;若任一总声音信号帧的音源方向在预设的音源方向范围内,且该总声音信号帧中不存在语音信号,则判定该总声音信号帧的第一断句结果为无效信号帧;若任一总声音信号帧的音源方向不在预设的音源方向范围内,则判定该总声音信号帧的第一断句结果为无效信号帧。
作为进一步优化,所述语音断句模块对各个总声音信号帧进行断句还包括:在各个总声音信号帧按照信号采集时段由先到后的顺序基础上,对于任一总声音信号帧:当该总声音信号帧的上一总声音信号帧的第二断句结果为有效信号帧时,判断从该总声音信号帧开始向前统计是否有至少a个连续的第一断句结果为无效信号帧的总声音信号帧,若是则判定该总声音信号帧的第二断句结果为无效信号帧,否则判定该总声音信号帧的第二断句结果为有效信号帧;当该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧时,判断在从该总声音信号帧开始向前的b个连续总声音信号帧中,是否存在至少c个第一断句结果为有效信号帧的总声音信号帧,若是则判定该总声音信号帧的第二断句结果为有效信号帧,否则判定该总声音信号帧的第二断句结果为无效信号帧;其中,当该总声音信号帧没有上一总声音信号帧时,默认该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧;其中,a≥1,b≥1,c≥1,c≤b,a、b和c都是整数。
作为进一步优化,上述系统还包括语音识别模块,所述语音识别模块的输入端与语音断句模块的输出端连接;所述语音断句模块还用于将所有第二断句结果为有效信号帧的总声音信号帧按照信号采集时段由先到后的顺序传输到语音识别模块;所述语音识别模块用于对接收到的各个总声音信号帧进行语音识别。
作为进一步优化,所述声音信号预处理模块还用于在将所有声音信号帧中信号采集时段相同的声音信号帧进行合成前,分别对各个声音信号帧进行降噪处理和语音增强处理。
有益效果是:本发明基于麦克风阵列,使用音源方向对语音激活检测结果做辅助判别,通过判断音源方向是否在预设的方向范围内,决定是否采用语音激活检测的检测结果,避免了其他方向的干扰信号对语音断句造成干扰系,提高了语音断句的准确性。
附图说明
图1是本发明实施例的系统结构框图。
具体实施方式
下面结合附图和实施例,详细说明本发明的技术方案。
一方面,本发明提供一种语音断句方法,包括:
通过麦克风阵列采集多路声音信号,并按照预设的分帧间隔分别对各路声音信号进行分帧处理,得到各路声音信号的声音信号帧;
分别将所有声音信号帧中信号采集时段相同的声音信号帧进行合成,得到各个信号采集时段所对应的总声音信号帧,并分别对各个总声音信号帧进行语音激活检测,判断各个总声音信号帧中是否存在语音信号;
分别根据所有声音信号帧中信号采集时段相同的声音信号帧,处理得到各个信号采集时段所对应的总声音信号帧的音源方向,并分别判断各个信号采集时段所对应的总声音信号帧的音源方向是否在预设的音源方向范围内;
对各个总声音信号帧进行断句,包括:
若任一总声音信号帧的音源方向在预设的音源方向范围内,且该总声音信号帧中存在语音信号,则判定该总声音信号帧的第一断句结果为有效信号帧;
若任一总声音信号帧的音源方向在预设的音源方向范围内,且该总声音信号帧中不存在语音信号,则判定该总声音信号帧的第一断句结果为无效信号帧;
若任一总声音信号帧的音源方向不在预设的音源方向范围内,则判定该总声音信号帧的第一断句结果为无效信号帧。
上述方法对采集到的各路声音信号分帧后,根据各路声音信号的各个声音信号帧,将各路声音信号中相应的声音信号帧合成为一路信号,即总声音信号帧,并计算出每个总声音信号帧的音源方向,然后结合总声音信号帧的音源方向和语音激活检测结果共同判断总声音信号帧是有效信号还是无效信号,进而能够为语音识别提供更有效的识别数据。
对上述方法进行进一步优化,具体可以是:
一方面,为了防止语音断句结果的抖动,提高语音断句的准确性,可以结合上一总声音信号帧的第二断句结果和从当前总声音信号帧开始向前的多个总声音信号帧的第一断句结果,根据整体断句情况对当前总声音信号帧的第一断句结果进行修正。
上述具体是,对各个总声音信号帧进行断句还包括:
在各个总声音信号帧按照信号采集时段由先到后的顺序基础上,对于任一总声音信号帧:
当该总声音信号帧的上一总声音信号帧的第二断句结果为有效信号帧时,判断从该总声音信号帧开始向前统计是否有至少a个连续的第一断句结果为无效信号帧的总声音信号帧,若是则判定该总声音信号帧的第二断句结果为无效信号帧,否则判定该总声音信号帧的第二断句结果为有效信号帧;
当该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧时,判断在从该总声音信号帧开始向前的b个连续总声音信号帧中,是否存在至少c个第一断句结果为有效信号帧的总声音信号帧,若是则判定该总声音信号帧的第二断句结果为有效信号帧,否则判定该总声音信号帧的第二断句结果为无效信号帧;
其中,当该总声音信号帧没有上一总声音信号帧时,默认该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧;其中,a≥1,b≥1,c≥1,c≤b,a、b和c都是整数。
进一步的,根据上述得到的各个总声音信号帧的第二断句结果,将所有第二断句结果为有效信号帧的总声音信号帧按照信号采集时段由先到后的顺序进行语音识别,根据修正后的断句结果将有效信号提取出进行识别,提高语音识别的准确性,节约语音识别占用的资源。
另一方面,将所有声音信号帧中信号采集时段相同的声音信号帧进行合成前,分别对各个声音信号帧进行降噪处理和语音增强处理,以提高信噪比。
基于上述语音断句方法,本发明提供一种语音断句系统,包括麦克风阵列模块、声音信号预处理模块、语音激活检测模块、音源方向检测模块和语音断句模块,所述麦克风阵列模块的输出端与音源方向检测模块的输入端和声音信号预处理模块的输入端连接,所述声音信号预处理模块的输出端与语音激活检测模块的输入端和语音断句模块的输入端连接,所述语音断句模块的输入端与音源方向检测模块的输出端和语音激活检测模块的输出端连接;
所述麦克风阵列模块用于采集多路声音信号,并按照预设的分帧间隔分别对各路声音信号进行分帧处理,并将得到的各路声音信号的声音信号帧传输到音源方向检测模块和声音信号预处理模块;
所述声音信号预处理模块用于分别将所有声音信号帧中信号采集时段相同的声音信号帧进行合成,并将得到的各个信号采集时段所对应的总声音信号帧传输到语音激活检测模块和语音断句模块;
所述语音激活检测模块用于分别对各个总声音信号帧进行语音激活检测,判断各个总声音信号帧中是否存在语音信号,并将各个总声音信号帧的语音激活检测结果传输到语音断句模块;
所述音源方向检测模块用于分别根据所有声音信号帧中信号采集时段相同的声音信号帧,处理得到各个信号采集时段所对应的总声音信号帧的音源方向,并分别判断各个信号采集时段所对应的总声音信号帧的音源方向是否在预设的音源方向范围内,并将判断结果传输到语音断句模块;
所述语音断句模块用于对各个总声音信号帧进行断句,包括:若任一总声音信号帧的音源方向在预设的音源方向范围内,且该总声音信号帧中存在语音信号,则判定该总声音信号帧的第一断句结果为有效信号帧;若任一总声音信号帧的音源方向在预设的音源方向范围内,且该总声音信号帧中不存在语音信号,则判定该总声音信号帧的第一断句结果为无效信号帧;若任一总声音信号帧的音源方向不在预设的音源方向范围内,则判定该总声音信号帧的第一断句结果为无效信号帧。
对上述系统进行进一步优化,具体可以是:
一方面,语音断句模块对各个总声音信号帧进行断句还包括:在各个总声音信号帧按照信号采集时段由先到后的顺序基础上,对于任一总声音信号帧:当该总声音信号帧的上一总声音信号帧的第二断句结果为有效信号帧时,判断从该总声音信号帧开始向前统计是否有至少a个连续的第一断句结果为无效信号帧的总声音信号帧,若是则判定该总声音信号帧的第二断句结果为无效信号帧,否则判定该总声音信号帧的第二断句结果为有效信号帧;当该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧时,判断在从该总声音信号帧开始向前的b个连续总声音信号帧中,是否存在至少c个第一断句结果为有效信号帧的总声音信号帧,若是则判定该总声音信号帧的第二断句结果为有效信号帧,否则判定该总声音信号帧的第二断句结果为无效信号帧;其中,当该总声音信号帧没有上一总声音信号帧时,默认该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧;其中,a≥1,b≥1,c≥1,c≤b,a、b和c都是整数。
进一步的,上述系统还包括语音识别模块,所述语音识别模块的输入端与语音断句模块的输出端连接;所述语音断句模块还用于将所有第二断句结果为有效信号帧的总声音信号帧按照信号采集时段由先到后的顺序传输到语音识别模块;所述语音识别模块用于对接收到的各个总声音信号帧进行语音识别。
另一方面,声音信号预处理模块还用于在将所有声音信号帧中信号采集时段相同的声音信号帧进行合成前,分别对各个声音信号帧进行降噪处理和语音增强处理。
实施例
下面具体举例说明本发明的技术方案,本例中,音源方向检测基于波达方向检测技术,音源方向检测模块采用波达方向检测模块。
本例的语音断句系统,如图1所示,包括麦克风阵列模块、声音信号预处理模块、语音激活检测模块、波达方向检测模块、语音断句模块和语音识别模块,麦克风阵列模块的输出端与波达方向检测模块的输入端和声音信号预处理模块的输入端连接,声音信号预处理模块的输出端与语音激活检测模块的输入端和语音断句模块的输入端连接,语音断句模块的输入端与波达方向检测模块的输出端和语音激活检测模块的输出端连接,输出端语音识别模块的输入端连接。
使用时,通过麦克风阵列采集多路声音信号,并按照预设的分帧间隔分别对各路声音信号进行分帧处理,得到各路声音信号的声音信号帧,并将得到的各路声音信号的声音信号帧传输到波达方向检测模块和声音信号预处理模块。
然后声音信号预处理模块分别对各个声音信号帧进行降噪处理和语音增强处理,处理完成后,分别将所有声音信号帧中信号采集时段相同的声音信号帧进行合成,得到各个信号采集时段所对应的总声音信号帧,并将得到的各个信号采集时段所对应的总声音信号帧传输到语音激活检测模块和语音断句模块。
语音激活检测模块分别对各个总声音信号帧进行语音激活检测,判断各个总声音信号帧中是否存在语音信号,并将各个总声音信号帧的语音激活检测结果传输到语音断句模块。
波达方向检测模块分别根据所有声音信号帧中信号采集时段相同的声音信号帧,处理得到各个信号采集时段所对应的总声音信号帧的音源方向,并分别判断各个信号采集时段所对应的总声音信号帧的音源方向是否在预设的音源方向范围内,并将判断结果传输到语音断句模块。
语音断句模块根据各个总声音信号帧的音源方向判断结果和语音激活检测结果进行断句,分为两个阶段:
第一阶段为:
若任一总声音信号帧的音源方向在预设的音源方向范围内,且该总声音信号帧中存在语音信号,则判定该总声音信号帧的第一断句结果为有效信号帧。
若任一总声音信号帧的音源方向在预设的音源方向范围内,且该总声音信号帧中不存在语音信号,则判定该总声音信号帧的第一断句结果为无效信号帧。
若任一总声音信号帧的音源方向不在预设的音源方向范围内,则判定该总声音信号帧的第一断句结果为无效信号帧。
第二阶段为:
在各个总声音信号帧按照信号采集时段由先到后的顺序基础上,对于任一总声音信号帧:
当该总声音信号帧的上一总声音信号帧的第二断句结果为有效信号帧时,判断从该总声音信号帧开始向前统计是否有至少a个连续的第一断句结果为无效信号帧的总声音信号帧,若是则判定该总声音信号帧的第二断句结果为无效信号帧,否则判定该总声音信号帧的第二断句结果为有效信号帧。
当该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧时,判断在从该总声音信号帧开始向前的b个连续总声音信号帧中,是否存在至少c个第一断句结果为有效信号帧的总声音信号帧,若是则判定该总声音信号帧的第二断句结果为有效信号帧,否则判定该总声音信号帧的第二断句结果为无效信号帧。
其中,当该总声音信号帧没有上一总声音信号帧时,默认该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧;其中,a≥1,b≥1,c≥1,c≤b,a、b和c都是整数。
经过上述两个阶段后,得到各个总声音信号帧的最终语音断句结果,即第二断句结果。然后语音断句模块将所有第二断句结果为有效信号帧的总声音信号帧按照信号采集时段由先到后的顺序发送到语音识别模块进行语音识别。
Claims (8)
1.语音断句方法,其特征在于,包括:
通过麦克风阵列采集多路声音信号,并按照预设的分帧间隔分别对各路声音信号进行分帧处理,得到各路声音信号的声音信号帧;
分别将所有声音信号帧中信号采集时段相同的声音信号帧进行合成,得到各个信号采集时段所对应的总声音信号帧,并分别对各个总声音信号帧进行语音激活检测,判断各个总声音信号帧中是否存在语音信号;
分别根据所有声音信号帧中信号采集时段相同的声音信号帧,处理得到各个信号采集时段所对应的总声音信号帧的音源方向,并分别判断各个信号采集时段所对应的总声音信号帧的音源方向是否在预设的音源方向范围内;
对各个总声音信号帧进行断句,包括:
若任一总声音信号帧的音源方向在预设的音源方向范围内,且该总声音信号帧中存在语音信号,则判定该总声音信号帧的第一断句结果为有效信号帧;
若任一总声音信号帧的音源方向在预设的音源方向范围内,且该总声音信号帧中不存在语音信号,则判定该总声音信号帧的第一断句结果为无效信号帧;
若任一总声音信号帧的音源方向不在预设的音源方向范围内,则判定该总声音信号帧的第一断句结果为无效信号帧。
2.如权利要求1所述的语音断句方法,其特征在于,所述对各个总声音信号帧进行断句还包括:
在各个总声音信号帧按照信号采集时段由先到后的顺序基础上,对于任一总声音信号帧:
当该总声音信号帧的上一总声音信号帧的第二断句结果为有效信号帧时,判断从该总声音信号帧开始向前统计是否有至少a个连续的第一断句结果为无效信号帧的总声音信号帧,若是则判定该总声音信号帧的第二断句结果为无效信号帧,否则判定该总声音信号帧的第二断句结果为有效信号帧;
当该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧时,判断在从该总声音信号帧开始向前的b个连续总声音信号帧中,是否存在至少c个第一断句结果为有效信号帧的总声音信号帧,若是则判定该总声音信号帧的第二断句结果为有效信号帧,否则判定该总声音信号帧的第二断句结果为无效信号帧;
其中,当该总声音信号帧没有上一总声音信号帧时,默认该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧;其中,a≥1,b≥1,c≥1,c≤b,a、b和c都是整数。
3.如权利要求2所述的语音断句方法,其特征在于,还包括将所有第二断句结果为有效信号帧的总声音信号帧按照信号采集时段由先到后的顺序进行语音识别。
4.如权利要求1所述的语音断句方法,其特征在于,所述将所有声音信号帧中信号采集时段相同的声音信号帧进行合成前,分别对各个声音信号帧进行降噪处理和语音增强处理。
5.语音断句系统,基于权利要求1-4任一项所述的语音断句方法,包括麦克风阵列模块、声音信号预处理模块和语音激活检测模块,其特征在于,还包括音源方向检测模块和语音断句模块,所述麦克风阵列模块的输出端与音源方向检测模块的输入端和声音信号预处理模块的输入端连接,所述声音信号预处理模块的输出端与语音激活检测模块的输入端和语音断句模块的输入端连接,所述语音断句模块的输入端与音源方向检测模块的输出端和语音激活检测模块的输出端连接;
所述麦克风阵列模块用于采集多路声音信号,并按照预设的分帧间隔分别对各路声音信号进行分帧处理,并将得到的各路声音信号的声音信号帧传输到音源方向检测模块和声音信号预处理模块;
所述声音信号预处理模块用于分别将所有声音信号帧中信号采集时段相同的声音信号帧进行合成,并将得到的各个信号采集时段所对应的总声音信号帧传输到语音激活检测模块和语音断句模块;
所述语音激活检测模块用于分别对各个总声音信号帧进行语音激活检测,判断各个总声音信号帧中是否存在语音信号,并将各个总声音信号帧的语音激活检测结果传输到语音断句模块;
所述音源方向检测模块用于分别根据所有声音信号帧中信号采集时段相同的声音信号帧,处理得到各个信号采集时段所对应的总声音信号帧的音源方向,并分别判断各个信号采集时段所对应的总声音信号帧的音源方向是否在预设的音源方向范围内,并将判断结果传输到语音断句模块;
所述语音断句模块用于对各个总声音信号帧进行断句,包括:若任一总声音信号帧的音源方向在预设的音源方向范围内,且该总声音信号帧中存在语音信号,则判定该总声音信号帧的第一断句结果为有效信号帧;若任一总声音信号帧的音源方向在预设的音源方向范围内,且该总声音信号帧中不存在语音信号,则判定该总声音信号帧的第一断句结果为无效信号帧;若任一总声音信号帧的音源方向不在预设的音源方向范围内,则判定该总声音信号帧的第一断句结果为无效信号帧。
6.如权利要求5所述的语音断句系统,其特征在于,所述语音断句模块对各个总声音信号帧进行断句还包括:在各个总声音信号帧按照信号采集时段由先到后的顺序基础上,对于任一总声音信号帧:当该总声音信号帧的上一总声音信号帧的第二断句结果为有效信号帧时,判断从该总声音信号帧开始向前统计是否有至少a个连续的第一断句结果为无效信号帧的总声音信号帧,若是则判定该总声音信号帧的第二断句结果为无效信号帧,否则判定该总声音信号帧的第二断句结果为有效信号帧;当该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧时,判断在从该总声音信号帧开始向前的b个连续总声音信号帧中,是否存在至少c个第一断句结果为有效信号帧的总声音信号帧,若是则判定该总声音信号帧的第二断句结果为有效信号帧,否则判定该总声音信号帧的第二断句结果为无效信号帧;其中,当该总声音信号帧没有上一总声音信号帧时,默认该总声音信号帧的上一总声音信号帧的第二断句结果为无效信号帧;其中,a≥1,b≥1,c≥1,c≤b,a、b和c都是整数。
7.如权利要求6所述的语音断句系统,其特征在于,还包括语音识别模块,所述语音识别模块的输入端与语音断句模块的输出端连接;所述语音断句模块还用于将所有第二断句结果为有效信号帧的总声音信号帧按照信号采集时段由先到后的顺序传输到语音识别模块;所述语音识别模块用于对接收到的各个总声音信号帧进行语音识别。
8.如权利要求5所述的语音断句系统,其特征在于,所述声音信号预处理模块还用于在将所有声音信号帧中信号采集时段相同的声音信号帧进行合成前,分别对各个声音信号帧进行降噪处理和语音增强处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910604972.4A CN110310625A (zh) | 2019-07-05 | 2019-07-05 | 语音断句方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910604972.4A CN110310625A (zh) | 2019-07-05 | 2019-07-05 | 语音断句方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110310625A true CN110310625A (zh) | 2019-10-08 |
Family
ID=68079142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910604972.4A Pending CN110310625A (zh) | 2019-07-05 | 2019-07-05 | 语音断句方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110310625A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008064892A (ja) * | 2006-09-05 | 2008-03-21 | National Institute Of Advanced Industrial & Technology | 音声認識方法およびそれを用いた音声認識装置 |
CN101454827A (zh) * | 2006-05-25 | 2009-06-10 | 雅马哈株式会社 | 语音状况数据生成装置、语音状况可视化装置、语音状况数据编辑装置、语音数据再现装置以及语音通信系统 |
CN102770909A (zh) * | 2010-02-24 | 2012-11-07 | 高通股份有限公司 | 基于多个话音活动检测器的话音活动检测 |
CN102968991A (zh) * | 2012-11-29 | 2013-03-13 | 华为技术有限公司 | 一种语音会议纪要的分类方法、设备和系统 |
CN106940997A (zh) * | 2017-03-20 | 2017-07-11 | 海信集团有限公司 | 一种向语音识别系统发送语音信号的方法和装置 |
CN107742522A (zh) * | 2017-10-23 | 2018-02-27 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
CN108962226A (zh) * | 2018-07-18 | 2018-12-07 | 百度在线网络技术(北京)有限公司 | 用于检测语音的端点的方法和装置 |
CN109036450A (zh) * | 2017-06-12 | 2018-12-18 | 田中良 | 用于收集并处理音频信号的系统 |
CN109448705A (zh) * | 2018-10-17 | 2019-03-08 | 珠海格力电器股份有限公司 | 一种语音切分方法及装置、计算机装置和可读存储介质 |
CN109884591A (zh) * | 2019-02-25 | 2019-06-14 | 南京理工大学 | 一种基于麦克风阵列的多旋翼无人机声信号增强方法 |
-
2019
- 2019-07-05 CN CN201910604972.4A patent/CN110310625A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101454827A (zh) * | 2006-05-25 | 2009-06-10 | 雅马哈株式会社 | 语音状况数据生成装置、语音状况可视化装置、语音状况数据编辑装置、语音数据再现装置以及语音通信系统 |
JP2008064892A (ja) * | 2006-09-05 | 2008-03-21 | National Institute Of Advanced Industrial & Technology | 音声認識方法およびそれを用いた音声認識装置 |
CN102770909A (zh) * | 2010-02-24 | 2012-11-07 | 高通股份有限公司 | 基于多个话音活动检测器的话音活动检测 |
CN102968991A (zh) * | 2012-11-29 | 2013-03-13 | 华为技术有限公司 | 一种语音会议纪要的分类方法、设备和系统 |
CN106940997A (zh) * | 2017-03-20 | 2017-07-11 | 海信集团有限公司 | 一种向语音识别系统发送语音信号的方法和装置 |
CN109036450A (zh) * | 2017-06-12 | 2018-12-18 | 田中良 | 用于收集并处理音频信号的系统 |
CN107742522A (zh) * | 2017-10-23 | 2018-02-27 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
CN108962226A (zh) * | 2018-07-18 | 2018-12-07 | 百度在线网络技术(北京)有限公司 | 用于检测语音的端点的方法和装置 |
CN109448705A (zh) * | 2018-10-17 | 2019-03-08 | 珠海格力电器股份有限公司 | 一种语音切分方法及装置、计算机装置和可读存储介质 |
CN109884591A (zh) * | 2019-02-25 | 2019-06-14 | 南京理工大学 | 一种基于麦克风阵列的多旋翼无人机声信号增强方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102388416B (zh) | 信号处理装置及信号处理方法 | |
WO2016150001A1 (zh) | 语音识别的方法、装置及计算机存储介质 | |
EP3923273A1 (en) | Voice recognition method and device, storage medium, and air conditioner | |
CN110299142B (zh) | 一种基于网络融合的声纹识别方法及装置 | |
CN105448303A (zh) | 语音信号的处理方法和装置 | |
CN103151039A (zh) | 一种基于向量机svm的说话者年龄段识别方法 | |
CN108922541A (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN101114449A (zh) | 非特定人孤立词的模型训练方法、识别系统及识别方法 | |
CN111145763A (zh) | 一种基于gru的音频中的人声识别方法及系统 | |
Meltzner et al. | Signal acquisition and processing techniques for sEMG based silent speech recognition | |
CN111583936A (zh) | 一种智能语音电梯控制方法及装置 | |
CN111179927A (zh) | 一种金融设备语音交互方法以及系统 | |
CN107845381A (zh) | 一种机器人语义处理的方法及系统 | |
CN109935226A (zh) | 一种基于深度神经网络的远场语音识别增强系统及方法 | |
CN109215634A (zh) | 一种多词语音控制通断装置的方法及其系统 | |
CN110931018A (zh) | 智能语音交互的方法、装置及计算机可读存储介质 | |
CN109448702A (zh) | 人工耳蜗听觉场景识别方法 | |
CN108986844B (zh) | 一种基于说话人语音特征的语音端点检测方法 | |
CN110310625A (zh) | 语音断句方法及系统 | |
CN107886940B (zh) | 语音翻译处理方法及装置 | |
CN110146988A (zh) | 一种头戴式增强现实眼镜系统及其实现方法 | |
CN113707156B (zh) | 一种用于车载的语音识别方法及系统 | |
CN113077784B (zh) | 一种角色识别智能语音设备 | |
CN210575088U (zh) | 语音识别家电控制装置 | |
CN109446536A (zh) | 一种根据声强判断翻译器输入源语言的系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191008 |